独立性检验方法的研究

一、独立性检验

独立性检验是根据样本数据判断两类分类变量是否彼此相关的假设性检验。分类变量是能区分样本不同类别的变量, 不同的取值表示相应样本属于不同的类别, 如智能手机在手机分类中就是一个分类变量。

二、列联表

列联表是观测数据按两个或更多属性分类时所列出的频数表, 它是由两个或两个以上的分类变量进行交叉分类的频数分布表。若总体中的个体有两个分类变量X和Y, X的值域 (x1, x2, .., xp) , Y的值域为 (y1, y2, …, yq) , 从总体中取出n个样本, 设其中有nij个样本属于xi和yj, 将p×q个nij (i=1, 2, …, p, j=1, 2, …, q) 排列成一个p行q列的二维列联表, 简称p×q列联表。

三、独立性检验的原理及步骤

(1) 根据样本值得出样本频数表, 假设有两个分类变量X和Y, X的取值为x1或x2, Y的取值为y1或y2, 其样本频数表如表1所示。

(2) 要推断分类变量X与Y是否有关, 我们先假设s:“分类变量X与Y无关”, 在假设s的情况下可以得出结论b在a+b中所占的比例与d在c+d中所占的比例应该差不多相等, 即:b/ (a+b) ≈d/ (c+d) , 可以继续推导出:ad≈bc。

(3) 构造随机变量k2= (a+b+c+d) (ad-bc) 2/ ( (a+b) (c+d) (a+c) (b+d) ) , 在假设s基础上, k2的值应该非常小才对, 但是如果通过样本观察值计算得到的k2的值很大的话, 就说明我们的假设s不对, 从而可以得出和假设s相反的结论即“分类变量X与Y有关”, 这种方法类似于反证法, 先假设分类变量X与Y无关, 在此假设的基础上在推断出相反的结论。

四、独立性检验方法案例

微信是现代人生活工作中信息交流的工具, 现统计某公司使用微信的180名员工中年龄段和微信使用时间情况, 年龄分为青年 (小于40岁) 和中年 (不小于40岁) 两个阶段, 每天使用微信时间在一小时以内为“不经常使用微信”, 大于一小时为“经常使用微信”, 由列联表 (表2) 中的数据判断有多大概率认为“经常使用微信与年龄有关”?

首先构造统计变量

根据统计学家的估算数据我们知道k2>10.828的概率为0.001, 又因为k2=13.333>10.828, 所以可以得出结论“我们只有0.001的概率认为经常使用微信与年龄无关”或者可以说“有99.9%的把握认为经常使用微信与年龄有关”。

摘要：独立性检验是统计学的一种检验方式, 它是根据频数列联表中的样本数据来判断两个分类变量彼此相关或相互独立的假设检验。但是在实际应用独立性检验方法检验分类变量的相关性时, 很多人并不能真正理解该方法的原理而且在实际检验时并不能很好应用该方法。本文在此基础上对独立性检验方法进行系统的研究和讲解。

关键词：独立性检验,列联表,分类变量

参考文献

[1] 吕世杰, 许茂发, 任佳, 姚荣, 卫智军.卡方独立性检验的实践与可操作性研究[J].统计与管理, 2015, (05) :41-44.

[2] 杨兴军, 宋玉祥.“独立性检验”的教材研读与思考[J].中国数学教育, 2015, (06) :5-7.

[3] 孙红艳.分类数据中高维列表可压缩性研究[D].厦门:厦门大学, 2014.

[4] 朱源, 何小亚, 蔡倩.独立性检验的困难、对策与价值[J].复印报刊资料·高中数学教与学, 2016 (4) :24-28.