spss数据处理分析报告(共13篇)
报告
一、数据介绍:
本次分析的数据为某班级学号排列最前的15个人在2012学习、获奖统计表,其中共包含七个变量,分别是:专业、学号、姓名、性别、第一学期的成绩、第二学期的成绩、考级考证数量,通过运用spss统计软件,对变量进行频数分析、描述分析、探索分析、交叉列联表分析,以了解该班级部分同学的综合状况,并分析各变量的分布特点及相互间的关系。
二、原始数据:
三、数据分析
1、频数分析
(1)第一学期考试成绩的频数分析
进行频数分析后将输出两个主要的表格,分别为样本的基本统计量与频数分析的结果
1)样本的基本统计量,如图1所示。样本中共有样本数15个,第一学期的考试成绩平均分为627.00,中位数为628.00,众数为630,标准差为32.859,最小值为568,最大值为675。“第一学期的考试成绩”的第一四分位数是602,第二四分位数为628,第三四分位数为657。
2)“第一学期考试成绩”频数统计表如图2所示。
3)“第一学期考试成绩”Histogram图统计如图3所示。
(2)、第二个学期考试成绩的频数分析
1)样本的基本统计量,如图4所示。第二学期的考试成绩平均分为463.47,中位数为452.00,众数为419,标准差为33.588,最小值为419,最大值为522。“第二学期的考试成绩”的第一四分位数是435,第二四分位数为452,第三四分位数为496。
3)“第二学期考试成绩”频数统计表如图5所示。3)“第二学期考试成绩”饼图统计如图6所
2、描述分析
描述分析与频数分析在相当一部分中是相重的,这里采用描述分析对15位同学的考级考证情况进行分析。
输出的统计结果如图7所示。从图中我们可以看到样本数15,最小值1,最大值4,标准差0.941等统计信息。
3.探索分析。
探索分析能够对变量进行更为深入、详尽的描述性统计分析。下面就利用探索式分析对不同性别的同学获奖情况进行探索分析。
1)在结果输出窗口中将看到如下统计数据。如图8所示,给出了输出的观察量。
2)图9所示给出了根据性别分组的各组描述统计量。根据表中的数据,2012,女生比男生获奖的次数多。
3)图10以茎叶图的形式也直观的呈现了女生获奖数量远远比男生多的现象。,4)图为稳健估计量表,给出了4种不同权重下因变量均值的稳健估计。
5)图11中给出了分组后的百分位数,分别输出男生和女生获奖数量的5%、10%、25%、75%、90%、及95%的百分位数。
4、交叉列联表分析
分析多个变量在不同取值情况下的数据分布情况,从而进一步的分析变量关系。下面就利用交叉列联表分析不同性别学生对目前所学专业的态度。在结果输出窗口中将显示如下统计数据。1)观察量处理摘要表,如图12所示,2)“性别”和“所学专业兴趣”的交叉列联表如图13所示,从图中我们可以看出,男生中对所学专业感兴趣的只有2个,(占22.2%),一般感兴趣的有4人,(占44.4%),不感兴趣的有3人,(占33.3%),理论值为3.6人感兴趣,3.0人一般感兴趣,2.4人不感兴趣,残差分别为-1.6,1.0,0.6。女生中对专业感兴趣的有4人,(占66.7%),一般感兴趣的有1人,(占16.7%),不感兴趣的也有1人,(占16.7%),理论值为2.44人感兴趣,2.0人一般感兴趣,1.6人不感兴趣,残差分别为1.6,-1.0,-0.6.可见,男生对目前所学专业的兴趣与女生有很大差别。
膳食——行为——心理综合干预社区心血管疾病的研究中要用到大量的数据信息, 以往收集数据都以Excel形式存储, 如何方便利用这些数据是个重要问题。一般数据的分析通常用SPSS等分析软件, 对这类软件的使用, 也是一项关键的技术, 如何有效、灵活地使用SPSS软件的功能, 也是需要考虑的问题。设计一个数据管理系统对数据进行管理和对数据进行初步处理是有效且可行的方法。在开发社区心血管医疗管理系统中, 实现对数据库的操作及数据处理, 利用SPSS对数据进行分析, 以便得到预期的结果。本文分析了ADO技术对数据库操作的过程和方法, 探讨了SPSS的体系结构及其对象的调用方法和过程, 给出了从SQL数据库向SPSS导出数据的具体过程。
1 SQL数据库
对社区心血管病的综合干预效果比较中, 要对大量个体数据进行采集、统计、比较、分析等操作。其中在对饮食习惯、行为习惯、心理特征等相关因素的干预下, 得到患病信息数据与只采用药物治疗的结果。并对数据进行分析得出结果;为了实现分析的准确性和可靠性, 就要处理足够多的数据。本系统采用SQL数据库技术, 实现了对数据的存储和操作, 使数据的管理标准化;实现了对原有Excel数据的应用及初次整理的数据向Excel和SPSS数据格式的转换。
1.1 数据库系统
本系统中把数据分为基本信息、膳食信息、行为信息、心理信息、患病信息。初步设计为系统管理、数据管理 (增、删、改及数据的转换) 、数据高级管理及分析各功能模块。
1.2 利用ADO技术操作SQL数据库
(1) ADO是一种高层的数据库访问技术, 它基于通用对象模型 (COM) , 简化了OLE DB的操作。
ADO的结构可以分为ADO应用的结构和ADO本身的结构, 前者表明了ADO访问数据库的方法, 后者反映了ADO的对象结构, 用于掌握ADO的程序编制。
(2) ADO访问数据库的方案。
在用Visual Basic访问数据库时, 存在两种数据源, 一种是本地数据源, 另一种是远程数据源。数据的存放地点决定了数据库应用系统中数据访问方案的选择。这里只讨论ADO访问方法, 一般按照以下操作模式进行:①连接到数据源, 同时确定对数据源的访问是否成功;②指定对数据源操作的命令, 同时可带参数;③执行命令;④如果这个命令返回一些数据, 则将这些数据存储在缓冲区, 缓冲区的数据易于检查、操作或更改;⑤适当情况下, 可通过更新缓存中的数据更新数据源;⑥提供常规方法检测错误。
ADO有很强的灵活性, 实际应用中只需经过其中部分过程就能完成用户所需的功能。
(3) 访问SQL-Server数据库。
数据库应用系统要经常访问SQL Server数据库, 在VB中访问这种数据库的方法如下:①可通过ADODC控件访问数据库:ADODC是Visual Basic中的ADO可视化数据控件, 通过它可以建立数据库的连接, 主要通过设置其属性connectionstring来实现;②通过命令建立ADO对象来访问数据库:通过命令方式使用ADO对象, 必须先在项目中加入对ADO模型的引用, 才能使用命令建立ADO对象。建立ADO连接的方法有3种, 分别为基于OLE DB提供者、ODBC数据源、ODBC API函数进行连接, 基本过程为:
初始化变量dim n As New ADODB.Connection
连接字符串设定模块
Cn.Open 连接字符串
通过以上方法可与数据库建立连接, 使用ADO的Command子对象或者使用connection对象的execute方法执行SQL语句, 实现对数据库的各种操作。
2 SPSS软件的体系结构
SPSS软件体系是建立在面向对象、组件的基础之上的, 其中SPSS类库和对象是支撑SPSS整个软件体系的基础。
2.1 SPSS类库
类库是文件或文件中的组件, 主要有两种类型的类库。扩展名为.tlb的类库可以作为单独的文件进行安装, 扩展名为.olb的类库可以嵌入到对象库文件内部。SPSS提供了SPSS类库、SPSS转轴表类库、SPSS RTF类库和SPSS图形编辑器OLD控制库, 应用程序要使用SPSS类库中的对象可以从中访问。
2.2 SPSS对象
对象是具有各种数据分析功能的独立实体, 可以通过程序进行控制。SPSS提供了数十个对象, 包括简单的文本对象、图例对象和比较复杂的转轴表对象、交互图对象等, 其中实现SPSS基本功能的对象包括Application对象、Options对象、DataDocument对象、Output Item对象和Map对象等。
图1是SPSS中对象的树形结构, 位于最顶端的是Application对象, 它代表SPSS自身, 所有其他对象都在Application对象之下。第二层包括4个对象。
Option对象:
为输出浏览器、图表和数据等设置选项。
Documents对象:
提供数据编辑、语法文档、输出浏览器和草稿文档等窗口的属性和操作方法。
SPSS Info 对象:
提供SPSS的一些必要信息。
CS Application对象:
提供与网络有关的对象操作。
3 调用SPSS命令
3.1 引用Application对象
打开工程|引用菜单, 找到SPSS Type Library, SPSS RTF Type Library等相关引用项并选中。
3.2 创建SPSS对象
引用方式不分类别可以按以下方式创建SPSS对象。
也可以用另一种方式定义object classes 变量, 创建Application object的代码如下所示:
上面两段代码均可以启动SPSS application。在此介绍对Data Document的输入操作及实现如下:
根据File参数返回现有数据的命令, 并且返回相应的数据文件对象ISpssDataDoc, 这种方法可以调用SPSS内部命令GET FILE, 等待下一步命令的执行。
参数Sync确定命令是按同步方式还是异步方式执行, 在异步执行方式下要判断SPSS命令是否完成执行。
3.3 应用举例
按上面的方法调用SPSS对象实现对数据的操作, 把系统初次处理的数据直接输入到SPSS中, 实现对数据的转换, 并对数据进行分析。SPSS中获取数据的一种命令格式如下:
调用结果如图2所示。
通过调用SPSS的对象、类和命令实现对数据操作和分析, 封装分析常用的功能, 实现视图操作。
4 结束语
利用SPSS分析数据时, 用户要熟悉数据库的操作,
参考文献
[1]王井阳, 张晓明.在VC中利用ADO技术操作数据库中的BLOB数据[J].计算机应用研究, 2004 (10) .
[2]刘增军, 向为, 孙广富.基于ADO的数据库开发技术研究[J].科学技术与工程, 2007 (5) .
[3]李寿兵, 张佑生.ADO数据存取技术[J].技术交流微型电脑应用, 2000 (6) .
[4]卢纹岱.SPSS for Windows统计分析[M].北京:电子工业出版社, 2000.
关键词:数据分析;Excel和SPSS应用;输入处理;描述统计
一、Excel在数据分析中的简单应用
(一)Excel在数据输入处理的应用
Excel大多数情况下是用“列表格式”存储数据,将书面数据信息输入到计算机很多情况下须手工完成,但有时也可根据数据本身的规律性或借助Excel的某些功能来提取数据。
例如,将xx大学2011级学生考研信息录入到Excel的表格中,有姓名,序号,性别,学号,班级,身份证号等几项数据。
其中,姓名、学号、身份证号、性别手工输入;序号利用Excel本身定义的拖动复制功能输入;出生日期的输入可以利用文本截取函数从身份证号中分别提取,并用日期函数结合成出生日期。
(二)Excel在数据审核处理中的应用
数据本身要求符合一定的逻辑,但在手工输入过程中难免出现错误。在输入的同时让计算机自动识别不合逻辑之处并给出提示,有助于及时判断输入数据是否有误。
(三)Excel在数据描述统计的应用
Excel在计算平均数、方差(标准差)、众数、中位数时分别利用公式“AVERAGE”、“VAR”(STDEV)、“MODE”、“MEDIAN”,并选择选择需要求解的范围即可得出最终结果。例如,对“学业成绩A”计算均值。
利用公式“AVERAGE”,选择需要求解平均数的范围C5:C38,计算出最后结果78.16118。
二、SPSS在数据分析中的简单应用
(一)SPSS在数据输入处理的应用
用SPSS统计软件进行数据输入可以通过直接输入和间接导入两种方式读取数据。SPSS可以导入不同类型文件的数据,如xls、dat、inc、csv等。
(二)SPSS在数据筛选排序中的应用
利用SPSS选择“数据”—“选择个案”,进行条件的筛选。SPSS的数据排序是对数据窗口中的数据按照某个或几个指定变量的变量值升序或降序重新排列。以排序变量的多少分为“单值排序”、“多重排序”。
(三)SPSS在数据描述统计的应用
SPSS在计算平均数、众数、中位数时可通过“分析”—“描述统计”—“概率”菜单下进行依次选择求解。也可以同时求解出均值、众数、中位数。并可以利用“描述数据”功能求出所研究数据的方差(标准差)。
三、Excel与SPSS比较分析
Excel与SPSS在进行统计数据分析中都有各自的特点,具有分析如下:
其一,Excel在数据输入分析中应用较简便,不需对有关数据进行额外的变量设置,但处理较多大数据操作比较困难;SPSS相对专业性较强,对大数据的处理步骤和结果都较为详细,但在数据变量设置方面不太简便。
其二,Excel在数据分析中最为基础且易掌握,图形工具强大,但不适宜大型统计分析;SPSS为较为专业的统计应用软件,对于大型数据的统计应用较多但对于图形工具不太全面。
其三,就统计学原理所涉及的统计方法而言,Excel没有直接提供包括箱线图、相关系数的p-值、方差分析中的多重比较、非参数检验方法、质量控制图等方法,而SPSS功能比较完善。
其四,大部分情况下Excel的计算结果都是可靠的,但在一些极端情况下Excel的计算程序不够稳定和准确,有些自动功能可能会导致意想不到地结果。相比之下,SPSS计算结果比较准确,适用于学术研究。
其五,SPSS的数据编辑窗口与Excel类似且可定义数据的属性,但其数据管理功能相对较弱如只允许同时打开一个数据文件,这对有些分析工作来说可能不够方便。
四、结论
不敢预测也不可能断言,在未来的统计学理论研究中统计软件处理会占据统治地位,但是统计软件处理数据越来越渗透到经济学研究中,特别是数据分析方面,并且发挥着越来越重要的作用已成为事实。而且还应当说,统计学学不仅应用了统计软件,如Excel和SPSS,而且还会不断地应用着统计软件发展的最新的成果。因为统计软件的不断发展也在致力于解决能够描述复杂现象的数据现象。当然,虽然统计软件是统计学中必不可少的应用,但是统计软件在统计学中只是作为一种工具被用来考虑或研究基本现象或行为背后的规律。作为工具和方法必须在理论的合理框架中才能真正发挥其应有的作用而不能替代真正经济数据的发展,否则会出现因噎废食。我们从另一个角度上看,这反过来也推动了Excle和SPSS等有关统计软件的发展,为其的发展提供了源源不断的动力。在未来的数据分析领域中,我们要好好地运用这一重要工具进行更加精确、更为深入的研究,科学地融合统计软件与统计数据研究,推动共同进步发展。
参考文献:
[1] 安维默.用Excel管理和分析数据[M].人民邮电出版社.2003:25-26
[2] 博库.Excel 2007实战技巧精粹[M].人民邮电出版社.2011:99-102
本次调查共发放问卷230份,回收216份,其中有效问卷为216份。回收率为93.9%,有效率为93.9%。下面是我们对调查结果的分析。
一、研究的背景
研究背景:在当代中国,海外娱乐文化普及率日益增长,随着生活水平的提高,人们也正在将越来越多的金钱投入到精神娱乐消费领域。大学生作为引领娱乐消费文化的主力之一,对于海外娱乐文化又都是抱持一种什么样的态度呢?他们是更喜欢土生土长的大陆娱乐,还是更倾向于“墙”外面的世界呢?众所周知,Youtube 、Facebook 、Twitter 等知名视频和SNS 网站都无法在大陆登陆浏览,那么这是否会阻碍大学生们寻找免费资源继续了解和喜爱海外娱乐文化呢?聪明的大学生们又会以什么样的方法继续自己的热情呢?
大多数学生党作为经济并不完全独立的个体,又是如何分配支出以应对娱乐所带来的不菲开销的呢?(明星演唱会、唱片、周边等等)由于样本仅为我校(内蒙古师范大学)内部学生,数据的代表性势必会受到局限,但至少可以让我们管中窥豹,了解一点这个问题现今的走向。
二、研究目的
研究目的:了解校内学生娱乐偏向性指数,作为当代青年成长影响因素的研究指标。
三、研究对象
研究对象:内蒙古师范大学盛乐校区本科生、研究生。
四:研究方法
1. 调查形式 :按照随机抽样的问卷调查,遵循自愿填写的形式。
问卷分发地点选择图书馆一楼、四楼、五楼的自习室。
2. 问卷回收状况 :发出230份,回收216份。回收率为93.9%
3. 填表说明: 问卷为封闭式形式。
遵循逐渐深入的原则展开询问,查者根据自己实际情况填写。
五、描述与分析
在本次回收的216份问卷中,可以说数据比较具有代表性。
1. 调查群体信息:我们先对调查群体的所在学院, 以及所在年级进行初步了解。
由上表和图我们发现人数最多的前两个学院依次是教育科学学院和经济学院,传媒、文学院和民族艺术的被调查人数最少,只有四人,本科生居多。
2. 数据描述
衡量关心程度的指标:在这次问卷设计中我们将主动了解意向、满意度、了解程度作为主要衡量指标。
(1)了解的意向:
从现有数据我们可以发现除去系统偏差有58.2%的人不愿意主动了解。
(2)满意度:
除去系统偏差,61.2%的人认为只是一般般,满意度集中在这一程度。
进一步我们想要知道性别对满意程度是否有显著影响,原假设为二者对海外娱乐文化的满意程度没有显著差别。为此我们进行交叉表的分析。
由下表我们可以看出对各选项男女所占总数比例大致相当。但这并不能作为研究结论,我们接着进行卡方检验。
由卡方检验我们看到如果显著性水平为0.05,由于卡方的概率p-值大于显著性水平,因此没有足够理由拒绝原假设,我们得出结论:性别对满意程度没有显著影响。
3. 以性别为控制变量,电子游戏与体育节目的相关性检验
在总体分析中我们看到电子游戏和体育节目的代表性很强,根据常识我们知道男生偏向于游戏和体育节目,二者似乎具有很强相关性,真的如此吗?为此,我们对电子游戏和体育节目进行相关性检验
由表我们可以看出体育运动及观看与电子游戏的相关性通过显著性检验,二者的相关系数为0.601. 相对应的具体的电子游戏(DOTA 、LOL )与具体的体育观看运动(欧冠、NBA )也通过了显著性检验,相关系数分别为0.264和0.334.
我们可以得出结论:男生倾向于选择电子游戏和体育节目是有很强相关性的。
4. 性别对看待中国主流娱乐文化是否有显著影响的交叉表分析和T 检验 原假设认为性别对看待中国主流娱乐文化无显著影响p-值大于显著性水平,因此没有足够理由拒绝原假设,我们得出结论:性别对看待中国主流娱乐文化无显著影响 我们对此接着进行了T 检验
原假设,我们得出结论:性别对看待中国主流娱乐文化无显著影响
5、影响满意程度的相关因素回归分析(总体分析)
根据调查数据,是否有自己的偶像与体育运动及收看国外娱乐节目或电视剧选项通过显著性检验,模拟出来的回归方程为
满意程度=是否有自己的`偶像*0.179+体育运动及收看*0.193+收看国外娱乐节目或电视剧*0.321+1.100
影响满意程度的因素较多(三个),而三者所代表的方面又包括是否有偶像,能有自己的主要的娱乐方式。我们得出结论:满意程度是建立在一定了解基础之上的。
六. 存在问题的分析与总结
1. 存在问题的分析与尝试解决
(1)我们对主要娱乐方式中的选项进行相关性分析中发现所选变量的相关度不高,而对统计分析造成一定影响。
(2)我们对于选项的设计没有进行明确分类,增加了数据录入的难度、工作量和统计结果的精确性。
(3)课程设计的进度把握程度不佳,进行数据分析时所耗费时间在总体分配时间比例偏高,给接下来的总结带来困难。以后需要对进度进行有效控制。
2. 总体结论总结
针对满意程度、了解程度等指标的统计分析矿大学生对于海外娱乐文化的接受度较高,海外文化在大学生这一主要青年群体的普及程度较高。涉及内容面较宽泛,包括游戏、体育节目、影视节目。
spss工程实训报告
题 目:关于湖南大学本科生暑假规划的调查
学院名称: 金融与统计学院 专业班级: 统计二班 学生姓名: 宿骐、王美超、吕芳婷、学号:20111903203、20111903213、20111903218、指导老师:
目 录:
第一部分——spss分析原理及引言 第二部分——调查方案的设计 第三部分——调查结果及分析
第四部分——对本次调查的结论及相关建议 第一部分——spss分析原理及引言
此次调查是针对湖南大学本科生的暑期规划问题,调查问卷共设计15个题目,分别从被调查者给各种活动安排的时间、目的及其满意程度等方面进行数据资料的收集。
我班同学组成了调查小组,对在校生的暑期规划情况进行了调查。由于调查对象范围比较大,本小组主要采用的是抽样调查的方法,共收回有效问卷100份。从性别、年级方面对被调查者个人信息进行汇总。
第二部分——调查方案的设计
一、调查方案
1、调查目的
了解学校本科生暑假的时间安排情况,如旅游、兼职、学习、休息等,并通过调查不同性别、年级的同学们的满意程度,帮助学校和家长熟悉湖大学生暑期生活,以及为同学们的暑期生活规划做出参考。
2、调查对象
全校在校本科生。
3、调查方法
我们采取了抽样和随机抽样相结合的方法,分别选择了在统计二班进行整群调查,以及在各学院和年级进行随机抽样。4.调查方式
全体调查人员亲自到南北校区教学楼发放问卷并收集,网上制作问卷并征集答卷。5.调查表
具体调查项目及调查表详见附录。6.调查时间
5月25日—6月25日完成数据收集工作 7.调查人员
全体调查小组成员,共5位。8.调查项目预算
共200份调查表,打印每张0.2元,共40元。
二、调查问卷
关于湖南大学本科生暑假规划的调查问卷
大家好,为了解同学们的暑期安排情况,我们小组研究的课题是湖大本科生的暑期规划。请帮忙填写以下问卷,谢谢!
年级_____ 性别_____ 院系_________________
1、您对自己的暑期生活是否有具体的计划安排? a、有,且很具体 b、有,但只是方向 c、没有,顺其自然
2、您暑期打算做什么?
a、旅游 b、兼职 c、学习d、休息
3、如果旅游,您的目的是? a、丰富阅历,增长社会经验 b、培养和提高与人交流能力
c、调剂心情以更好地投入生活学习中 d、不打算旅游
4、如果旅游,您将去往?
a、湖南省 b、外省 c、国外d、不打算旅游
5、如果旅游,您向往的主题类型是? a、自然风光b、海滨度假 c、繁华都市
d、民俗古镇e、其他_________________
6、如果旅游,您打算花费大约多长时间? a、1周 b、半个月 c、1个月
d、1个半月 e、2个月 f、不打算旅游
7、如果兼职,您的目的是? a、体验生活,增加社会经验 b、锻炼自己为人处事的能力
c、增加收入,为自己和父母减轻负担 d、不打算兼职
8、如果兼职,您希望做哪些工作? a、家教 b、餐厅服务员
c、促销员 d、与专业相关的工作 e、其他________________ f、不打算兼职
9、如果兼职,您打算花费大约多长时间? a、半个月 b、1个月 c、1个半月 d、2个月e、不打算兼职
10、如果学习,您主要打算学习或复习什么? a、英语培训或复习b、电脑培训或复习
c、驾校培训 d、自己感兴趣的___________________ e、不打算学习
11、如果学习,您打算花费大约多长时间? a、半个月 b、1个月 c、1个半月 d、2个月e、不打算兼职
12、如果休息,您的目的是? a、放松心情,调养身体 b、陪伴家人和朋友 c、在家休闲,省钱省力 d、不打算长时期休息
13、如果休息,您愿意怎样安排时间给学习? a、每天1-2小时b、每星期1-2天
c、每月1-2星期d、不打算花时间学习e、其他_____________________
14、如果休息,您打算怎样安排时间给睡眠? a、每天6-8小时 b、每天8-10小时
c、每天10-12小时 d、每天12小时以上
15、您对自己的暑期生活安排满意吗? a、非常满意 b、基本满意 c、不太满意 d、不满意
谢谢配合!祝大家暑期愉快!
由此表数据可知:打算旅游的与打算做兼职的同学人数相差不多,分别占百分比24%、27%;而将假期时间主要花费在学习上的学生最多,达到了35%;与此相反,打算长时期在家休息的人数最少,只有14%。考虑到大学生暑假旅游与兼职的动机,主要即丰富阅历、增加社会经验,以及锻炼自己为人处世的能力等,学生们的选择情有可原。然而,由学习与休息的人数反差可见,作为新时代大学生,同学们依然坚持学习是自己的第一要务,此点值得欣慰。由以下关于学习内容的数据又得知,大学生的学习不再局限于课本知识,来源也趋于丰富多样化,说明大学的确是汲取知识的黄金阶段,因此,也希望同学们都能珍惜青春,抓住机遇,在大学打造出一个多功能的优秀的自己。从上面的暑期打算调查中,我们可以看到,选择旅游的同学所占的比例占总比例的很大部分。可见,同学们对旅游是比较重视的。那么,同学们又会选择去哪儿旅游呢?如表3,我们可以清晰的看到,选择外省旅游的比例高达67%,次之的是选择在湖南省游玩,有极少部分选择出国游玩,部分同学则不会出去游玩。从下面饼状图可以一目了然,选择外省的比例独占鳌头。总的来说,暑假中绝大多数同学都会选择外出旅游,而旅游的同学中又有绝大多数同学选择外省旅游。这也不难理解。一方面,同学们在长沙呆了这么久,作为地区优势,早就把湖南省可以玩的地方统统玩遍了;另一方面,就算湖南省还没有玩遍,呆在长沙的时间还很长,可以留着以后玩,趁着这个长假好好感受异区文化,体味别样风情。在外省旅游也会增长更多在课本上学不到的东西,拓展自己的见闻,丰富自己的知识面,体会不一样的文化风情,也不失为一种明智的选择。饼状图如下:
4——
既然上面分析的大部分同学都会出去旅游,那么,他们一般会选择游玩写什么地方呢?是繁华都市还是民俗古镇?是自然风光还是浪漫海滨?
不妨来看看表4。从表中所显示的比例我们可以看出,同学们的选择都倾向于自然风光和民俗古镇。从图4中更可以直观的看到。从中可以得出,同学们都倾向于比较优雅的环境去游玩而不是那些喧嚣繁华的都市。在城市生活中压抑太久,同学们为自己找了一个清新脱俗又生机盎然的旅游环境是势在必行的。一方面,同学们可以在大自然的怀抱中无拘无束的敞开自己的胸怀,放松自己的心情,感受大自然的魅力;另一方面,美丽的自然风光加上清新优雅的民俗古镇,伴着景美、人美、情美,畅玩我们这美丽的暑假,不失为一种别样的暑假选择。当然,也有少部分同学选择了阳光灿烂的海滨。
总的来说,清净、优雅、宁静、自然还是同学们旅游的主体倾向。
10——
从这次调查我们可以得出看出:
一、大部分学生都有令自己基本满意的暑期计划安排,但都只是方向而不够具体、明确;二:部分学生没有能按预期中的安排去度过暑假,主要原因是缺少自制力;
三、多数学生有着充分利用暑假的意识,懂得在学习之余,做一些兴趣之内的事,或是体验生活从而丰富阅历,但缺少一个正确的引导。因此,我们小组有以下建议: 1:在放暑假之前,老师可以根据自己的经验给学生提出建议,正确的引导学生; 2:老师可以适当布置少量暑期综合实践作业,如暑期实践论文、暑期生活总结等; 3:很多学生在暑期愿意从事一些兼职,但大学生应该在确保安全的前提下根据自己的实际情况去选择,适合大学生短期兼职的是家教和销售;
(1)打开SPSS软件,读取数据文件reliability.Sav(附件文件是excel格式,数据类型
均为“数值型”);
(2)选择“Analyze”(分析)-“Scale”(尺度)-“Reliability Analysis”(信度分析)命令,在显示“Reliability Analysis”(信度分析)对话框选择评估项目。本例将所有变量作为评估项目,点击“右箭头”按钮,将其移动到“Item”(项目)列表中。
(3)单击右侧的“Statistics”(统计)按钮,进入“Reliability Analysis Statistics”(信度分
析统计量)对话框,在“Descriptives for”(描述性分析统计量)选项中选择“Item”(项目)选项,在“Inter-Item”(项内项目)选项组中选择“Correlations”(相关分析)选项,单击“Continue”按钮,回到主对话框。
1 回归分析和相关分析
例1∶利用蒽酮硫酸比色法测定样品中可溶性糖含量。样品测定前配制葡萄糖标准溶液并测定OD值,葡萄糖标准溶液浓度依次为40,80,120,160,200 μg / m L; 对应的OD值分别为0. 186,0. 296,0. 455,0. 654,0. 792。以OD值对葡萄糖标准溶液浓度数值绘标准曲线。
例2: 8个健康人血清中胆固醇含量依次为165,200,220,200,146,200,219,128 mg / d L; 对应的脂蛋白含量分别为80,123,131,133,68,112,129,46 mg / d L,计算二者的相关系数[1]。
例1和例2应分别采用回归分析和相关分析。2个变量的关系 可采用回 归与相关 的统计分 析方法[2]。若是平行关系,一般用相关分析,如人的身高与体重之间的关系、兄弟身高之间的关系等。若是因果关系一般用回归分析,如微生物的繁殖速度受温度的影响,子女的身高受父母身高的影响。自变量是固定的( 试验时预先确定的) ,没有随机误差,因变量随自变量的变化而变化,并有随机误差,如作物施肥量和产量之间的关系,需采用回归分析。例1中葡萄糖标准溶液浓度是预先设定的,利用SPSS作回归分析,要以葡萄糖浓度作为自变量,利用Excel作散点图,以葡萄糖浓度作为横坐标。
1. 1 回归分析
1. 1. 1 SPSS操作数据文件见表1。为了统一格式和规范化,本文中录入的数据文件和SPSS运行结果皆以三线表呈现。
1) 正态性检验。分析 → 非参数检验 → 旧对话框→1 - 样本Kolmogorov - Smirnov( K - S) ,OD值→检验变量列表→常规→确定,结果见表2。
注: 正态参数的检验分布为正态分布,根据数据计算得到。
2) 回归分析。 分析 → 回归 → 线性,葡萄糖浓度→自变量,OD值→因变量,统计量→估计,模型拟合度→继续→确定。结果见表3,4,5。
注: a 表示预测变量( 常量) ,葡萄糖浓度。
注: 预测变量( 常量) ,葡萄糖浓度; 因变量,OD 值。
1. 1. 2数据解读1 ) 正态性检验。结果表明,P =0. 999 > 0. 05,服从正态分布。2 ) 回归分析。表3数据表明,相关系数R = 0. 996。表4数据表明,F =371. 742,P = 0. 000 < 0. 001,即直线回归效果极显著。由表5得到回归方程的系数和常数项,回归方程为y = a + bx = 0. 004x + 0. 006。
1. 2 相关分析
1. 2. 1 SPSS 操作 数据文件见表 6。
mg·d L- 1
1) 正态性检验。分析→非参数检验→旧对话框→1 - 样本K - S,胆固醇,脂蛋白→检验变量列表→常规→确定,结果见表7。
2) 相关分析。分析→相关→双变量,胆固醇、脂蛋白→变量,选项→均值和标准差,叉积偏差和协方差→继续,相关系数→Person→确定。双变量相关分析中对双变量正态分布资料可选择积矩相关系数( Pearson相关系数) ; 对于非双变量正态分布资料可选择等级相关系数( Spearman相关系数) 或Kendall相关系数等非参数方法[1]。结果见表8和表9。
注: 检验分布为正态分布,根据数据计算得到。
mg·d L- 1
注: **表示在 0. 01 水平( 双侧) 上显著相关。
1. 2. 2数据解读1) 正态性检验结果表明,胆固醇与脂蛋白含量的P值分别为0. 481,0. 774,均大于0. 05,皆服从正态分布。2) 相关分析结果表明,Pearson相关系数r = 0. 974,P = 0. 000 < 0. 001,即血清胆固醇与低密度脂蛋白之间存在强正相关关系。
2 配对样本 t 检验和独立样本 t 检验
例3: 测定正常鼠和白血病鼠脾脏中DNA含量,白血病组分别为12. 3,13. 2,13. 7,15. 2,15. 4,15. 8,16. 9 mg / g,正常组分别为10. 8,11. 6,12. 3,12. 7,13. 5,13. 5,14. 8 mg / g。 问2组鼠脾脏中DNA平均含量是否相同?
例4: 采用两种方法测定样品中的可溶性糖含量,原方法测 定值分别 为2. 505% 、2. 452% 、2. 397% 、2. 185% 、2. 349% ,新方法测定值分别为5. 711% 、5. 669% 、5. 671% 、5. 746% 、5. 707% 。问两种测定方法结果是否相同?
例3和例4应分别采用独立样本t检验和配对样本t检验。独立样本t检验主要用于检验两个样本是否来自具有相同均值的总体[3],如将糖尿病病人随机分配到旧药组和新药组,经过相同时间治疗后,用独立样本t检验比较两组的平均血压。配对样本t检验用于检验两个相关的样本( 配对资料) 是否来自具有相同均值的总体。配对数据来源的方式有两种,自身配对与同源配对[4]: ( 1) 自身配对。指同一个试验对象,在2个不同时间上分别接受前后2次处理,用前后2次的观测值进行对照和比较,或者对同一试验对象取不同部分观测值或不同方法处理后的观测值进行自身对照和比较。例如: 检验某种病畜治疗前后临床检查结果的变化; 检验用2种方法测定的食物中药物残留量的区别; 用国产与进口的膘厚测定仪测定活体肥猪,检验2种仪器测定结果有无差异。( 2)同源配对。指将来源相同、性质相同的2个个体配成一对,如将品种、性别、年龄、体重相同的2个试验动物配成一对,然后对配对的2个个体随机实施不同处理,再根据所得数据检验两种方法的效果。
2. 1 独立样本 t 检验
2. 1. 1SPSS 操作1 ) 正态性检验。 数据文件见表 10。
mg·g- 1
操作步骤如下: 分析→非参数检验→旧对话框→1 - 样本K - S,白血病组( 1组) ,正常组( 2组) →检验变量列表→常规→确定。结果见表11。
2) t检验。数据文件见表12。
操作步骤如下: 分析→比较均值→独立样本t检验,平均含量→检验变量,组别→分组变量,双击组别,激活定义组,分别输入1和2→继续→确定。结果见表13和表14。
mg·g- 1
2. 1. 2 数据解读 1) 正态性检验结果表明,2 组鼠脾脏中 DNA 平均含量的 P 值分别为 0. 928,0. 999,均大于0. 05,即皆服从正态分布。2) 方差齐性检验结果表明,P = 0. 412 > 0. 05,故方差齐性。3) 独立样本t检验结果表明,P = 0. 034 < 0. 05,即白血病组和正常组鼠脾脏中DNA平均含量之间有显著差异。表13数据表明,白血病组 ( 14. 64 mg / g ) 高于正常组( 12. 74 mg /g) ( P < 0. 05) 。
2. 2 配对样本 t 检验
2. 2. 1 SPSS 操作 1) 正态性检验。数据文件见表 15。
%
操作步骤如下: 分析→非参数检验→旧对话框→1 - 样本K - S,原方法,新方法→检验变量列表→常规→确定。结果见表16。
注: 正态参数检验分布为正态分布,根据数据计算得到。
2) t检验。操作步骤如下: 分析→比较均值→配对样本t检验,选定原方法,新方法→成对变量→确定。结果见表17、表18和表19。
2. 2. 2数据解读1) 正态性检验结果表明,2种方法测定的可溶性糖含量的P值分别为0. 982,0. 963,均服从正态分布。2) 相关性检验结果表明,P =0. 214 > 0. 05,故两种方法测定结果不相关。3 ) 配对样本t检验结果表明,P = 0. 000 < 0. 05,即2种方法测定的可溶性糖含量之间差异极显著。表17数据表明,新方法测定的可溶性糖含量高于原方法,是原方法的2. 4倍左右。
3 普通四格表 χ2检验和配对四格表 χ2检验
例5: 某医院采用中西医结合疗法和单纯西药疗法治疗慢性肾炎,治疗效果见表20。问两种疗法的有效率是否相同?
例
例6. 某医院分别采用尿液分析仪和尿沉渣显微镜法检查患者尿液的潜血情况,检查结果见表21。问两种方法的检出率是否一致?
例
例5和例6应分别采用普通四格表 χ2检验和配对四格表 χ2检验。表20中分为分组变量和指标变量,双向无序。表21中两种检验方法的结果有4种,两种方法皆显阳性130例,皆显阴性150例; 尿液分析仪检测结果阳性但尿沉渣显微镜法检测结果阴性10例,尿液分析仪检测结果阴性但尿沉渣显微镜法检测结果阳性20例。普通四格表 χ2检验,如比较2个样本率或者构成比; 配对四格表 χ2检验,如把1份标本分为2份,分别用两种方法进行化验,比较两种化验方法的结果是否有本质不同; 或分别采用甲、乙两种方法对同一批病人进行检查,比较此两种方法的结果是否有本质不同。
3. 1 普通四格表 χ2检验
3. 1. 1 SPSS 操作 数据文件见表 22。
操作步骤如下: 1加权。数据→加权个案,频数→加权个案→频数变量→确定。2χ2检验。分析→描述统计→交叉表,组别→行,效果→列,统计量→卡方→继续,单元格→观察值,期望值,行→继续→确定。结果见表23和24。
例
注: Pearson 卡方 0 单元格的期望计数少于 5,最小期望计数为28. 66。
3. 1. 2结果解读P值看卡方检验结果第4列渐进Sig. ( 双侧) 值,具体行数取决于n( 总数) 和t( 理论频数) 的大小[5]。t只需看表24下面标注的最小期望计数大小。当n≥40,且所有t≥5,看第1行Person卡方; 当n≥40,但有1≤t > 5,看第2行连续校正; n< 40或t < 1,看第4行Fisher的精确检验。表23数据表明,中西医结合疗法有效率为87. 5% ,单纯西药疗法有效率为77. 1% ,n = 335。表24数据表明,最小期望计数为28. 66,因而应看第1行,P = 0. 014 <0. 05,即两种疗法的有效率之间有显著差异,中西医结合疗法有效率高于单纯西药疗法( P < 0. 05) 。
3. 2 配对四格表 χ2检验
3. 2. 1 SPSS 操作 数据文件见表 25。
操作步骤如下: 1加权。数据→加权个案,频数→加权个案→频数变量→确定。2χ2检验。分析→描述统计→交叉表,甲法→行,乙法→列,统计量→卡方,Mc Nemar( M) →继续→确定。结果见表26。
例
注: Pearson 卡方 0 单元格的期望计数少于 5,最小期望计数为67. 74; Mc Nemar 检验采用实用的二项分布。
3. 2. 2结果解读由表26可以看出,Mc Nemar χ2检验结果表明,P = 0. 099 > 0. 05,表明尿液分析仪和尿沉渣显微镜法检查患者尿液的潜血情况的检出率一致。
4 结语
关键词:会展旅游;共词分析法;知识地图法
一、引言
在国际上,会展业由会议、奖励旅游、大型会议和展览会这四个词中的第一个字母组成,通常被称为MICE Industry, MICE的新发展中E包含了节事活动[1]。美国内华达大学饭店管理学院和会展管理系认为:“会展业包括展示会、会议和节事活动。”会展业的内涵远远大于仅从中文字面上对它所作的解释[2]。在20世纪80年代初,在Robert Christie mill和Alastair Morrison的《旅游体系》中明确指出:“商务旅游市场分为三个部分,即一般商务旅游,同各种会议展示有关的商务旅游和奖励旅游”。随后,以会展业和旅游活动之间的关系为论题的研究越来越多[3]。本文尝试以CNKI数据库中2000-2016年的会展旅游相关期刊论文为基础,采用共词分析方法与知识地图方法绘制SPSS知识地图,然后在此基础上分析会展旅游的研究现状。以及会展旅游业现在存在的问题和未来发展的趋势。
二、研究方法
(一)、研究方法
1、共词分析
Law.J认为“共词分析法”是最早起源于20世纪70年代中后期,是一种属于内容分析法的方法。共词分析法的基本的原理是:两个词之间的“共词强度”(指两个词共同出现于一篇论文中的次数)越高,那么这两个词之间的联系也就越紧密。共词矩阵其中的“词”可以理解成论文中的关键词。那是因为一方面论文里具有概括性的就是关键词,同时也是对论文主题概括的词语;另一方面,论文里的关键词的数量一般是在3-7个,易于统计。
2、 知识地图
布鲁克斯是最早提出知識地图的相关的概念的,他认为知识地图的概念主要是指人类的客观知识,人类的知识结构可以绘制成各个单元概念为结点的学科认识图[4]。 “知识地图”是对组织知识资源总体分布情况的可视化描述是由Ong T-H提出的。邓三鸿等人认为知识地图包含三个核心要素:1.知识单元摘要;2.知识的相互关系;3.知识的存储要素[5]。
笔者尝试结合共词分析法与知识地图法,以CNKI数据库中2000-2016年的会展旅游相关论文的关键词为对象, ,根据关键词生成的共词矩阵,以SPSS为工具做聚类分析和因子分析,通过得出的初步结论然后绘制SPSS知识地图,最后,再分析国内会展旅游领域的研究现状。
(二)、数据获取与预处理
1、 数据的获取
通过对CNKI中会展旅游的期刊论文以检索题名进行检索,得出的检索结果显示共有1912篇相关德论文。如果限定期刊为“核心期刊”、限定时间为“2000-2016”,检索得出的结果显示一共有354篇相关论文。从这相应的354篇论文中得出共包含1729个(929种)关键词,通过EXCEL进行统计词频然后得到前30个热点的关键词。2000-2006年国内数据挖掘研究热点关键词及词频:会展旅游153;会展业41;旅游业23;会展22;会展经济20;对策19;展业14;发展策略11;SWOT分析9;旅游9;发展8;会议旅游7;发展对策7;世博会6;会展专业6;奖励旅游6;品牌 6;旅游资源 6; 旅游产品 6;都市旅游 6;会展市场 6;会展业发展 6;会展品牌 6;桂林6;商务旅游 6;杭州6;文化产业6;定位 6。
然后以论文里的关键词为单位,以关键词之间的共词次数形成共词矩阵。该矩阵中关键词的代码从A1开始。各行与列交叉处的数值是行与列关键词的共词强度即词频。
2 、预处理
首先做三步预处理然后再绘制SPSS知识地图。第一步,将关键词形成的共词矩阵转化为相关矩阵,因为知识地图中显示的是各关键词之间的关联程度;第二步,将转化后的相关矩阵导入SPSS做聚类分析,初步判断各关键词之间的关联程度;第三步,将转化后的相关矩阵导入SPSS做因子分析,通过初步判断,然后提取这30个关键词中所应提取的因子个数。
共词矩阵是显示30个关键词之间的关联程度,越早被聚为一类的关键词之间的关联越紧密。一般而言,“特征值大于1的因子应被保留,特征值小于1的因子应被舍弃”,那么,应从30个关键词中提取因子;另一方面,所提取的因子应能概括总体信息的60%以上”[6],通过分析提取3个因子即可涵盖84.165%的信息。结合图1的聚类分析结果,笔者认为,提取3个因子(即将图1中的30个关键词聚为3类)较为合理。
3、SPSS知识地图分析
根据上文的预处理中转换后的相关矩阵和相关的初步结论(即30个关键词聚为3类较合理),利用SPSS的“Analyze Scale Multimensional Scaling (ALSCAL)”然后绘制出知识地图。具体而言,知识地图可以分两步绘制:第一步,利用SPSS绘制多维尺度分析图;第二步,根据聚类分析与因子分析的初步结论划分结点区域。
SPSS知识地图显示,国内会展旅游研究可分为三大区域:1、会展旅游(旅游、上海、世博会、旅游资源、会展品牌、定位等关键词);2、会展旅游业(会展、会议旅游、会展经济、发展、奖励旅游旅游产品、品牌等关键词);3、会展旅游发展(对策、模式、发展策略、展业、SWOT分析、发展对策、会展市场、会展业发展等关键词)。
(1)会展旅游
SPSS知识地图第二区域中,会展旅游是一结点,出现于第一象限。近些年会展旅游的不断发展,不断的成为各领域的关注对象,因此会展业的概念、与各个方面的关联需要亟待展开;另外一方面,全球和国家对于会展旅游业的发展及发展策略不断更新。因此会展旅游成为了会展业和会展的发展形成鼎立之势的研究主体。
nlc202309081203
(2)会展旅游业的难点
根据知识地图内的关键词,将国内文献会展旅游业的难点总结为这些类:
1)会展旅游公司:(1)因为自身资源有限的条件,所以对目的地资源控制力不强;(2)因为会议的召开多依赖人为因素,人员对接上比较容易出错;(3)由于内部采购管控比较难,缺乏客户信用评价体系;(4)单个公司一般策划能力相对较弱,拓展客户会受限。
2) 从总体的角度:(1)会展旅游行业信息化不够,挖掘潜力大;(2)因为中间商权利比较大,所以相关的收费并不透明;(3)行业里尚未出现领军者;(4)行业并未建立成一个产生态圈。
3)从用户需求角度:非标准化是对整个会展旅游行业影响最大的影响因素。
(3)会展旅游的发展
根据知识地图内的关键词,将国内文獻会展旅游业的发展总结为:
1)MICE全产业链布局:客户的整体服务过程处于一种分散的状态,因为国内的会展旅游公司很少能为客户提供综合整体市场的传播服务。
2)完善战略布局:未来,线上线下融合,资源巨头将展开兼并,进一步完善战略布局。
3)规范性的提升:针对目前中国会展旅游市场存在需要规范化操作等问题,有效合规监管方法及符合时代的全新运作模式,呼之欲出,未来中国会展旅游行业健康良性发展成为正成为行业共识。
结语:借助SPSS软件、共词分析方法与知识地图方法法,本文分析了近16年来会展旅游领域的研究现状,并得出三大结论:1、在会展旅游研究中, 会展旅游已与会展业、会展旅游的发展形成鼎立之势;2、会展旅游的难点;3、会展旅游业的发展。
参考文献
[1] 过聚荣.会展导论[M].上海:上海交通大学出版社,2006:263.
[2] 张伟.中国会展业现状与展望——73届UFI年会上的讲话[J].中国会展,2006(10):49-25.
[3] 倪鹏飞.中国城市竞争力报告NO.2[M].北京:社会科学文献出版社,2004:318.
[4] 陈立娜.知识管理中企业知识地图的绘制[J].图书情报工作,2003,(8):58-60,78.
[5]邓三鸿,金 莹,杨建林.学科知识地图的构建)以图书、情报学为例[J].情报学报,2006,25(1):3-8.
[6]张文彤.SPSS11统计分析教程[M].北京:北京希望电子出版社,2002:123.
选定河北省张家口地区34个地下水质站点9年资料,在SPSS统计软件的支持下,将主成分分析方法应用于水环境的.综合评价之中.利用主成分综合得分从评价分区、河流水系、同一水系的相邻站点上进行时空变化分析,分析结果理想,体现了主成分分析在水环境质量评价中的实用性.
作 者:李哲强 侯美英 白云鹏 作者单位:李哲强(河北省水文水资源勘测局,河北,石家庄,050031)
侯美英,白云鹏(张家口市水文水资源勘测局,河北,张家口,075000)
我主要以课上的顺序来一步步操作
一元回归
两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。
(2)回归方程的显著性检验(F检验)
多元线性回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。
(3)回归系数的显著性检验(t检验)
回归系数的显著性检验是检验各自变量x1,x2,…,对因变量y的影响是否显著,从而找出哪些自变量对y的影响是重要的,哪些是不重要的。
与一元线性回归一样,要检验解释变量对因变量y的线性作用是否显著,要使用t检验。
课上实例:
Next 在这里可以针对不同的自变量设置不同的筛选引入方法。Options 下一步:设置变量引入剔除的标准规则 Methot
自变量筛选的方法: Enter:所选变量全部引入模型 Stepwise:逐步引入法 Remove:剔除变量 Backward:向后消去法 Forward:向前消去法
结果:
第一个表格是
描述统计量 第二个表格是 相关系数矩阵
第三个表格是 列出模型引入以及剔除的变量,这里是强制引入法,所有变量引入模型 第四个表格是 模型拟合优度统计量 第五个表格是 模型显著性F检验
第六个表格是 每个回归系数显著性的t检验
第七个表格是 共线性诊断特征根有些接近0,有个别值特别大有严重共线性。条件指数如有个别维度值大于30,也说明有严重共线性!第八个表格是 关于残差的描述统计量 第九个表格是 残差的正态性诊断
多元回归
虚拟变量
前面几节所讨论的回归模型中,因变量和自变量都是可以直接用数字计量的,即可以获得其实际观测值(如收入、支出、产量、国内生产总值等),这类变量称作数值型变量。然而,在实际问题的研究中,经常会碰到一些非数值型的变量,如性别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量。
在回归分析中,对一些自变量是定性变量的先作数量化处理,处理的方法是引进只取“0”和“1”两个值的0−1型虚拟(dummy)自变量。当某一属性出现时,虚拟变量取值为“1”,否则取值为“0”。例如,令“1”表示改革开放以后的时期,“0”则表示改革开放以前的时期。再如,用“l”表示某人是男性,“0”则表示某人是女性。虚拟变量也称为哑变量。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质和属性。
课上实列:
建立虚拟变量DU。设置逻辑运算,如果AREA==1时,DU=1,否则DU=0.结果:
逻辑回归
称为logistic模型(逻辑回归模型)。
我们的逻辑回归模型得到的只是关于P{Y=1|x}的预测。
但是,我们可以根据模型给出的Y=1的概率(可能性)的大小来判断预测Y的取值。一般,以0.5为界限,预测p大于0.5时,我们判断此时Y更可能为1,否则认为Y=0。如果该p值小于给定的显著性水平(如=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果值大于,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据
课上实例:
将因变量放入dependent栏,自变量放入covariates栏中 可以把几个变量的乘积作为自变量引入模型作为交互影响项
线性回归一样,我们可以通过next按钮把自变量分成不同的组块,使不同的组块按顺序以不同的方式分步进入模型
Classification plots:制作分类图,通过比较因变量的观测值与预测值的关系,反映回归模型的拟合效果。
Hosmer-Lemeshow goodness-of-fit: H-L检验。
Casewise listing of residuals:显示个案的残差值(显示标准化残差超过两倍标准方差的个案或显示所有个案)
Correlations of estimates:输出模型中各参数估计的相关矩阵。
Iteration history:输出最大似然估计迭代过程中的系数以及log似然值。CI for exp(B):输出exp(beta)的置信区间,默认置信度为95% 在save选项中,我们可以选择需要保存的数据文件中的统计量。包括残差值、个案影响度统计量、预测概率值等等
结果:
第一部分有两个表格,第一个表格说明所有个案(28个)都被选入作为回归分析的个案。
第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。
(2)第二部分(Block 0)输出结果有4个表格。(组块0里只有常数项,没有自变量)
(3)Omnibus Tests of Model Coefficients表格列出了模型系数的Omnibus Tests结果。
(4)Model Summary表给出了-2 对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。
(5)Hosmer and Lemeshow Test P值大于0.05,说明模型有一定的解释能力(6)Classification Table分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性。
(7)Variables in the Equation表格列出了Step 1中各个变量对应的系数,以及该变量对应的Wald 统计量值和它对应的相伴概率。从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该变量在模型中很重要。B是回归系数的估计值 Wald系数的wald检验
Exp(beta)的估计值以及区间估计
(8)Correlation Matrix表格列出了常数Constant、系数之间的相关矩阵。常数与x2之间的相关性最大,x1和x3之间的相关性最小。
(9)图7-26所示是观测值和预测概率分布图。该图以0和1为符号,每四个符号代表一个个案。横坐标是个案属于1的录属度,这里称为预测概率(Predicted Probability)。纵坐标是个案分布频数,反映个案的分布。
【关键词】藏汉双语 学科成绩 相关性
【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2015)05-0012-01
一、概述
据青海省统计局2011年发布的青海省第六次人口普查主要数据公报,全省常住人口562.6万,其中藏族137.51万人,占全省总人口的24. 4%。我省藏区民族中学共105所,其中用藏汉双语授课的学校66所,占全省双语中小学校数的63%。青海藏区教育,说到底是以藏族为主的少数民族教育。
青海省藏区藏汉双语学校主要实行两种教学模式,第一模式为以本民族语言文字授课为主,单科加授国家通用语言文字;第二模式为国家通用语言文字教学为主,单科加授本民族语言文字。
玉树市位于青海省的西南部,地处青藏高原东部,位于玉树藏族自治州最东部,境内平均海拔4493.4米,是一个以牧业为主,农牧结合的县级市。2013年全市总人口为10万人,其中藏族占93%。玉树市是玉树州政治经济文化的,2013年玉树市有中专2所,民族初级中学3所,职业中学1所,小学、幼儿园等64所。
二、问题的提出
实行藏汉双语教学的学校,民族语文和汉语文同等重要。在青海藏区,本着“双加强、双改革、双提高”的原则,实施第一类模式的学校,加强国家通用语言文字教学。实施第二类模式的学校,加强本民族语言文字的教学,努力做到双语教育“并存、并举、并重”。在民族学生掌握国家通用语言文字方面,力争达到学前能会话、小学能交流、初中能听课、高中双语兼通的教学目标。但是,在藏区中小学,无论采取哪种教学模式,都不可避免的会产生两种文化的冲突问题,不同的学生个体由于各自所处的社区、家庭等环境不同,所以对本民族语言文字和国家通用语言文字的认可程度和对待态度不尽相同。藏汉双语教育过程中,由于双语言和双文化的介入,使得原本的一语教育、一元文化的局面被打破了,两种语言并行于教育系统中,双文化教育贯穿于整个双语教学。由此,两种语言和文化不可避免地会产生冲突。在冲突中两种文化并非处于完全同等的地位,强势文化与弱势文化共同存在。那么在不同教学模式的实行过程中,两种语言水平对学科成绩的影响程度如何?目前藏区双语学校采用的不同教学模式是否科学,有没有理论支撑?是我们值得关注的问题。
三、调查取样
本文对玉树市三所民族初级中学八年级共38个班级1473名学生的班级各科平均成绩进行了调查研究。 为便于统计,样本的抽取以班级为单位进行,以下为抽样细则:①样本容量:样本来自玉树市38个八年级班级统一时间进行考试的藏语文、汉语文、数学、历史四个科目成绩。②样本特征描述:所抽取样本为八年级初中生,上述四个科目已经从七年级开始学习了一年半时间。③成绩取样:选取样本为八年级第一学期期中考试成绩。
四、相关性分析
衡量事物之间或称变量之间线性相关程度的强弱,并用适当的统计指标表示出来,这个过程就是相关分析。它是研究变量间密切程度的一种常用统计方法。根据变量之间的不同情况,它分为三类:
(1)线性相关分析。研究两个变量间线性关系的程度。相关系数是描述这种线性关系程度和方向的统计量,用r来描述。
(2)偏相关分析。当两个变量同时与第三个变量相关时,将第三个变量的影响剔除, 只分析另外两个变量之间相关程度的过程 。
(3)距离相关分析。是对观测量之间或变量之间相似或不相似程度的一种测量。它用于同一变量内部各个取值间,以考察其相互接近程度;也可用于变量间,以考察预测值对实际值的拟合优度。
相关系数显著性差异的统计意义。由于抽样误差的存在,样本中两个变量问相关系数不为0,不能说明总体中这两个变量间的相关系数不是0,因此必须经过检验。检验的零假设是总体中两个变量间的相关系数为0。SPSS的相关分析过程给出了该假设成立的概率,公式如下:t=■(r是相关系数,n 是样本观测量数,n-2 是自由度),当相关系数检验的t统计量的显著性概率P< 0.05时,说明两个变量间相关性显著,通常在概率值上方用“?鄢” 表示;当p< 0.01时,说明两个变量间相关性非常显著,通常在概率值上方用“?鄢?鄢”表示; 当p> 0.05 时,说明两个变量间没有显著的相关性,只显示概率值。
通过人工来计算这些复杂的运算比较麻烦,但利用计算机软件来对数据进行相关分析却轻而易举,我们可以使用目前比较常用的SPSS 软件进行相关性分析。上面介绍的三类相关分析的功能集中于SPSS 软件中“分析”菜单下的“相关分析”子菜单中。
基于SPSS统计软件对各科成绩进行相关性分析,得出结果如下:
?鄢?鄢. 在 .01 水平(双侧)上显著相关。
1.汉语文成绩与数学成绩和历史成绩的显著性概率小于0.01,而且有显著相关标识;
2.藏语文成绩与数学成绩和历史成绩的显著性概率大于0.01,而且无显著相关标识;
3.藏语文成绩与汉语文成绩不显著相关。
五、结论和探讨
通过以上数据分析可以得到以下结论:
1.玉树市三所民族初级中学实施的是藏汉双语教学的二类模式,既数学、历史等课程是采用汉语授课,因为汉语文成绩与数学成绩和历史成绩显著相关;
2.在实施二类模式教学的学校,学生课程成绩(除藏语文外)与汉语文水平有显著相关性,加强汉语文教学是提高其它学科成绩的有效途径;
3.在实施二类模式教学的学校,藏语文成绩与其它课程成绩之间不显著相关,但相关系数并非为0,说明学生的智力因素和学习态度等非智力因素影响所有学科成绩。
参考文献:
[1]王荣,尚玛.青海藏区藏汉双语教育发展现状与展望[J].青海师范大学学报(社科版).2014年,第4期.
[2]王天成.《民族院校藏汉双语数学教育发展问题研究》.《课程教育研究》.2013年,第6期.
[3]万明钢等.双语教学模式与藏族学生智力、学习成绩关系研究[J].西北师范大学学报(社科版).1999年,第五期.
[4]才果.对青海藏族师范生教学语言兴趣的调查研究[J].民族教育研究.2001年,第三期.
一、数据来源与基本统计分析
为保证数据的可比性与分析结果的客观性, 本文选取某大学一年级学生的语文期末考试成绩, 随机抽取20位学生的成绩, 并在SPSS (13.0汉化版) 中创建数据文件。对基本数据进行分析得出表1:
输出结果显示样本数为20, 样本最高分为96分, 最低分为60分, 抽样对象的平均分为77.95分, 试卷的整体难度值约为0.78 (卷面满分为100分) , 标准差为11.40, 结合平均分综合分析, 表明受试学生个体之间存在一定差异。
二、样本K-S检验
考虑到学生成绩的分布状态是否合理, 即是否呈正态分布, 本文对数据进行了K—S检验, 得表2:
由表2可知, 样本总体成绩的显著性概率P=0.984, 0.984>0.05, 表明该样本服从正态分布。
三、样本T检验
本文拟对样本中男女生的语文成绩进行T检验, 以期对该班中的男女生的语文成绩进行均值比较, 以检验性别因素是否对学生成绩有显著影响。
首先对该样本进行分组, 女生组代号为1, 男生组代号为2, 表3是分组后对男女生两组成绩的基本分析:
接着对男女两组成绩进行样本T检验, 得表4如下:
由表4可知, 显著性 (双尾) 概率P=0.000<0.05, 即男女生的英语成绩存在显著性差异。
四、试卷效度分析
效度是指测试的有效程度。效标效度是指测验结果与效标之间的一致性程度。本文以学生的平时成绩作为效度分析的效标, 利用积差相关法求效标效度得到表5:
由表5可知, 效标效度结果为0.863, 说明这次期末考试的语文成绩与平时成绩相关性较高, 平时成绩好的学生考试成绩也较好, 平时成绩差的学生考试成绩也较差, 可知此次测试反映了学生真实的知识水平, 客观可信。
综上所述, 本文对此次学生的考试成绩进行了基本分析、正态性检验等分析, 对学生的学习效果进行了检验, 对试卷质量做出了评估, 希望通过这一研究为教学提供参考, 为试卷质量的提高提供借鉴。
参考文献
[1]覃承仁.SPSS软件的一些应用技巧[J].广西师范学院学报, 2008, (7) :228-231.
[2]竺丽英.SPSS软件在教学统计分析中的应用[J].化学教学, 2006, (3) :46-48.
[3]苏金明, 傅荣华, 周建斌等.统计软件SPSS for Windows实用指南[M].北京:电子工业出版, 2001.
数据拆分:compare groups各分组的观测量数据所得的结果放在一起比较。数据合并:增加观测量:data→merge→add cases 集中量数
【操作】quartiles,mean,median,mode,std.deviation,skewness,kurtosis;histogram,with normal 【报告】平均值,标准差,智商小于100的占总数的7% 差异量数
【操作】range 【报告】平均值,标准差,最小值~最大值 探索分析
【操作】outliers(极端值)
0.6745XMdnZmodifiedMdnAD极端值:0.6745为截距;X为原始分数;Mdn为“原始数据的中位数”;各分数与Mdn差的绝对值数列;MdnAD为”绝对值数的中位数”。Z绝对值≧3.5时为极端值。
【报告】各组人数,平均值,标准差。两组成绩存在一定的差异。单样本t检验
【对象】一个样本的均值与总体均值或某个已知的观测量之间差异的显著性
【操作】one-sample t test,将要分析的变量选入变量框,text value中设定总体均值 【报告】t检验结果显示,这个班的数学成绩与平均成绩之间差异不显著,t,df,p。独立样本t检验
【对象】两个不相干样本在相同变量上的观测量均值之间的差异显著性,要求正态分布、方差齐、样本间独立
【观察】levene的sig不显著,报告上面一行的t检验结果,显著则报告下一行。
【报告】教学效果的独立样本t检验结果显示,方差分析齐性不显著,即两组的方差齐。方法1与方法2的消息效果之间存在显著差异(t,df,p),即方法1明显优于方法2.配对样本t检验
【对象】两个相关样本观测量的均值差异或同一个样本的两次观测量均值之间的差异
【报告】xxxx配对样本t检验结果显示,入学后一年的智商要显著高于入学时的智商,t,df,p。说明入学后智商有显著的提高。单因素方差分析
【对象】一个自变量的不同水平是否给一个或几个相互独立的因变量造成显著差异
【操作】one-way anova;Post Hoc事后比较→LSD、Tamhane2;options→descriptive,homogeneity,means plot 【报告】方差分析结果表明,识记生词的平均成绩之间存在显著性差异,(F,p),事后分析的多重比较结果显示:1年级和3年级的平均成绩差异显著,p。1年级和5年级xxx,3年级和5年级xxx。多因素方差分析 【对象】两个或两个以上自变量的不同水平是否给一个或几个相互独立的因变量造成显著差异
二因素完全随机
【操作】univariate;plots→选各自变量进入horizontal/选一个自变量进入horizontal,另一个进入separate lines;post hoc→选入多重比较变量(3个或以上水平)→LSD、Tamhane2;options→全部移入display,homogeneity 【报告】方差分析结果表明:入学成绩的主效应差异显著(F,p),这表明高一学生的数学成绩在高中入学考试等级之间差异显著。教学方法的主效应差异显著(F,p),这表明高一学生的数学成绩在三种教学方法之间差异显著。入学成绩*方法的交互作用差异显著(F,p),这表明高中入学成绩等级和教学方法对其数学成绩有显著的交互作用。多重比较结果显示:方法1和方法
2、方法2和方法
3、方法2和方法3之间均值差异显著,p。随机区组
【对象】有无关变量或随机变量的条件下
【操作】univariate;model→custom→main选入各自变量/interactiont同时选入全部自变量 【报告】方差分析结果表明:入学成绩的主效应差异显著(F(df),p)教学方法的主效应差异显著;入学成绩与教学方法的交互作用差异显著,考试时间的区组效应差异显著,表明考试时间对数学考试成绩有重要的影响。两因素混合实验设计 【操作】univariate;postHoc→选入要研究的变量,LSD,Tamhanes2→options→全选,compare,descriptive,homogeneity。交互作用显著做简单效应。Data→select cases→if分组;one way anova→factor:要分析的变量→posthoc:LSD,Tamhanes2→options:descriptive,homogeneity 【观察】均值[方法1-方法2]=正数,方法1优于方法2.【报告】两因素完全随机实验设计的方差分析表明:入学成绩的主效应显著,F(df)=,p;入学成绩高的学生期末成绩(M,SD)显著高于入学成绩低(M,SD)。教学方法的主效应显著,F(df),p;方法3学生的期末成绩(M,SD)显著高于方法2(M,SD),方法2显著高于方法1.入学成绩与方法的交互作用效应显著,F,p。简单效应的分析结果显示,三种不同教学方法仅对入学成绩好的学生产生显著的影响,方法3显著优于方法
2、方法1,方法1和方法2之间未存在统计显著差异。协方差分析
【对象】分析自变量对因变量的影响时,消除协变量对因变量的影响 【操作】协变量进入covariates 【报告】方差分析结果表明:协变量年龄的主效应差异显著(F(df),p),表明年龄因素确实对推理成绩有显著影响;训练方法的主效应差异显著,说明两种训练方法对推理成绩有显著性影响。方法1(M,SD)显著优于方法2(M,SD)重复测量方差分析
【对象】对每个被试的某个观测量重复进行3次或以上的测量 【操作】repeated measures;输入重测变量名→重测次数→add;define→组内因素进入within→组间因素进入between;options→组内因素进入display→descriptive
【观察】球形检验差异不显著p>0.05,报告spherical;显著报告greenhouse 【报告】重复测量方差分析结果表明:三次重复测量的主效应差异显著(F,p),三种刺激条件的主效应差异显著;重复测量与刺激条件的交互作用显著。重复测量结果之间的多重比较
【操作】split file按组别拆分数据;repeated measure→输入重测因子及次数;define→因子进入within;model→custom→因子进入within;options→因子进入display→compare→bonferroni
【报告】多重比较结果显示:在刺激1上,测量2和测量3之间差异显著(p),其他各项重复测量之间差异都不显著;在刺激2上;在刺激3上。单因素重复测量 【操作】Select cases;repeated→无需选入组间变量。简单相关
Person:正态分布、两列变量值为连续的等比/等距数据
Spearman:不是等距或等比数据,而是具有等级顺序的测量数据时,或者数据等距/等比,但不是正态分布
Kendall:两个有秩变量间密切程度的测度
【操作】正态分布→person。等级相关→kendall+spearman 【报告】通过xx相关分析,结果显示xxx相关显著,r,p 偏相关
【对象】3个及以上变量时对其中每两个都要做相关
【操作】分析变量→variables;控制变量→control;options→means+zero 【报告】偏相关分析结果表明,数学成绩与化学成绩有显著的正相关r,p 一元线性回归分析
【对象】一个自变量与一个因变量之间的关系
【操作】散点图→simple;regression→linear;选入因变量自变量 【观察】B(constant)为常数,自变量为系数
【报告】线性回归分析结果显示,xx和xx存在显著的线性关系,F(df),p;自变量可以解释因变量%的变异性(R2=),建立的回归方程为,其中x代表,y代表。多元线性回归
【操作】linear→method→stepwise
【报告】多重线性回归分析结果显示,xx存在显著的多重线性关系,F(df),p;自变量解释了整个因变量变异程度的%(校正的R2=)。建立回归方程为,其中y代表,x1代表,x2代表。信度分析
【spss数据处理分析报告】推荐阅读:
管理统计学SPSS数据管理 实验报告10-11
数据处理上机实验报告06-25
基尔霍夫定理的验证实验报告(含数据处理)09-16
原始记录数据处理07-20
表格数据的处理教学设计10-11
城市地理信息多源数据处理研究06-26
大学物理实验数据处理方法总结10-01
数据分析方向09-26
大数据行业分析报告10-10
全站仪数据报告05-29