交叉表分析.doc

上传人：豆****

文档编号：33514166

上传时间：2022-08-11

格式：DOC

页数：8

大小：126.50KB

( 4.5 )

《交叉表分析.doc》由会员分享，可在线阅读，更多相关《交叉表分析.doc（8页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、如有侵权，请联系网站删除，仅供学习与交流交叉表分析【精品文档】第 8 页data05-02为某公司工资数据（n=15）。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。可以利用data05-01中的数据，使用变量occcat80为工作性质分类，region为地区，childs为每个家庭的孩子数。将childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析。列联表（交叉表）分析1、项目名称Crosstabs过程4、实训原理Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n

2、维列联表，并计算相应的百分数指标。4-1 列联表分析的含义与任务在实际分析中，当问题涉及到多个变量时，我们不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。很明显，如果还采用单纯的频数分析方法显然不能满足要求。因此，我们需要借助交叉分组下的频数分析，即列联表分析。列联表分析的主要任务有两个：（1）根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。（2）在交叉列联表的基础上，分析两变量之间是否具有独立性或一定的相关性。 4-2 卡方检验的原理为了理解列联表中行变量（Row）和

3、列变量（Column）之间的关系，我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样，卡方检验主要包括三个步骤：（1）建立零假设：行变量和列变量相互独立。（2）选择和计算检验统计量。列联表分析中的检验统计量是Pearson卡方统计量。其公式为：（4-9-1）其中，r为列联表的行数，c为列联表的列数，为实际观测频数，期望观测频数。期望频数的计算公式为：（4-9-2）其中，RT是指定单元格所在行的观测频数合计，CT是指定单元格所在列的观测频数合计，n是观测频数的合计。由式（4-9-1）可以看出，卡方统计量的大小取决于两个因素：一个是列联表的格子数；另一个是观测频数和期望频数

4、的差值。在列联表固定的情况下，卡方统计量取值的大小取决于观测频数和期望频数的总差值。当总差值越大时，卡方值也就越大，表明行列变量之间越相关；反之，当总差值越小时，卡方值也就越小，表明行列变量之间越独立。（3）得出结论并做决策。根据卡方统计量的概率P值和显著性水平进行比较，做出拒绝还是接受原假设的结论。如果卡方检验的概率P值小于显著性水平，则拒绝原假设，认为行列变量之间不独立，两者之间存在依存关系。反之，如果卡方检验的概率P值大于显著性水平，则接受原假设，认为行列变量之间独立，两者之间不存在依存关系。在卡方检验中还需要注意：交叉列联表中不应有期望频数小于1的单元格，或者不应有大量期望频数小于5的

5、单元格。如果交叉列联表中有20%以上单元格中的期望频数小于5，则不应用卡方检验，可以采用似然比（Likelihood Ratio）卡方检验等方法进行修正。5、背景材料某新产品上市前一个月中，分别对北京、上海、深圳三地进行了市场调查，调查表中有一项是关于顾客获知该产品的渠道。随机抽取了300份调查表，统计顾客获知产品渠道的数据如下，SPSS数据文件见4-9.sav。表4-9-1 顾客获知某新产品渠道的调查数据城市北京上海深圳合计朋友电视网络报刊2096034261333261653028622712388合计12398793006、实训步骤6-1 选择菜单“Analyze”“Descripti

6、ve Statistics”“Crosstabs”弹出如图4-9-1所示的窗口，进入列联表分析界面。图4-9-1 列联表分析窗口6-2 选择列联表中的行变量进入Row(s)框，如表4-9-1中的获取新产品的渠道变量。6-3 选择列连表中的列变量进入Column(s)框，如表4-9-1中的城市变量。6-4 Layer框：Layer指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析，则将其选入Layer框，并用Previous和Next钮设为不同层。Layer在这里用的比较少，在多元回归中我们将进行详细的

7、解释。6-5 选择Display clustered bar charts复选框表示输出分组条图。选择Suppress table复选框表示禁止在结果中输出列联表。6-6 单击按钮，弹出Exact Tests子对话框，如图4-9-2所示。图4-9-2 Exact Tests子对话框Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptotic only）、蒙特卡罗模拟（Monte Carlo）或确切计算（Exact）。其中，系统默认是不计算；蒙特卡罗模拟默认进行10000次模拟，给出99%置信区间；确切计算默认计算时间限制在5分钟内。这些默认

8、值均可更改。6-7 单击按钮，弹出Statistics子对话框，用于定义所需计算的统计量。如图4-9-3所示。图4-9-3 Statistics子对话框Statistics子对话框包括：（1）Chi-square复选框：选择是否进行卡方检验，计算值。（2）Correlaitons复选框：计算列联表两变量的Pearson相关系数和Spearman等级相关系数。（3）Nominal复选框组：选择是否输出反映分类资料相关性的指标，共有四个选项：Contingency coefficient复选框：列联系数，其值界于01之间，取值越大说明两变量之间的相关性越强。Phi and Cramers V复选

9、框：这两者也是基于值的，Phi在四格表检验中界于-11之间，在R*C表检验中界于01之间；Cramers V则界于01之间。该指标的绝对值越大，说明两变量之间的相关性越强。Lambda复选框：在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测因变量好，为0时表明自变量预测因变量差。Uncertainty coefficient复选框：不确定系数，以熵为标准的比例缩减误差（表示使用一个变量的值来预测其他变量的值可能发生的错误程度），其值接近1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。(4)Ordianl复选框组：选择是否输出反映定序资料相关

10、性的指标。包括以下组成部分：Gamma复选框：界于-11之间，所有观察实际数集中于左上角和右下角时，其值为1，取1和-1代表两变量完全一致或不一致，取0代表两变量完全不相关。Somersd复选框：为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例。界于-11之间，结果解释同上；Kendalls tau-b复选框：界于-11之间，计算过程包括结，结果解释同上；Kendalls tau-c复选框：界于-11之间，结果解释同上；（5）Nominal by Interval：Eta复选框：计算Eta值，用于分类变量的检验，其平方值可认为是因变量受不同因素影响所致方差的比例；（6）Kapp

11、a复选框：计算Kappa值，即内部一致性系数。通常Kappa大于0.75则认为两变量的一致性较好；小于0.4则认为两变量的一致性较差；（7）Risk复选框：计算相对危险系数，表明事件的发生和某因素之间的关联性。如果大于1，说明两者之间有关联。（8）McNemar复选框：进行McNemar检验（一种非参检验），两个二值变量相关性的非参数检验。该检验只有在行列数相等时才能用；（9）Cochrans and Mantel-Haenszel statistics复选框：进行独立性和齐性检验。6-8 单击按钮弹出Cell子对话框，用于定义列联表单元格中需要计算的指标，如图4-9-4所示。图4-9-4 C

12、ell子对话框Cell子对话框主要包括以下几部分：Counts复选框：是否输出实际观察数(Observed)和期望数（Expected）；Percentages复选框：是否输出行百分数（Row）、列百分数（Column）以及合计百分数（Total）；Residuals复选框：选择残差的显示方式，可以是实际数与期望数的差值（Unstandardized）、标化后的差值（standardized，将差值转化为标准正态分布），或者被标准误除的单元格残差（Adj.standardized）；Noninteger Weights：当频数因为加权而变成小数时，选择该项对频数进行取整。主要包括五种方法：Ro

13、und cell counts：对频数进行四舍五入取整；Round case weights：对加权样本在使用前进行四舍五入取整；Truncate cell counts：对频数进行舍位取整；Truncate case weights：对加权样本在使用前进行舍位取整；No adjustments：不调整。6-9 单击按钮，弹出Format子对话框，用于选择行变量是升序还是降序。单击按钮返回主界面，单击按钮完成操作。7、实训解析由于背景资料中表4-9的数据给出的直接是频数表，因此在建立SPSS数据集时可以直接输入三个变量：行变量、列变量和指示每个单元格中频数的变量，然后指定频数变量，最后进行检验

14、。因此，我们要检验原假设：“获知方式”与“城市”两变量之间是独立的，需要首先用Data菜单中的“Weight Cases”命令，设置频数变量；然后在“Crosstabs”命令中将“获知方式”、“城市”分别设置为行列变量；选中Display clustered bar charts选项，在Statistics对话框中选择Chi-square选项，在Cells对话框中选择Observed、Expectde选项，设置完成后点击OK按钮，完成操作，结果如表4-9-2、表4-9-3和图4-9-5所示。表4-9-3是卡方检验结果，共使用了三种检验方法。Pearson Chi-Square的显著水平0.10

15、7大于0.05，因此不能拒绝原假设，认为“获知方式”与“城市”两变量之间独立，即它们之间不存在相互依赖关系。表4-9-2 列联表获知方式 * 城市 Crosstabulation城市Total北京上海深圳获知方式报刊Count34262888Expected Count36.128.723.288.0网络Count603330123Expected Count50.440.232.4123.0电视Count913527Expected Count11.18.87.127.0朋友Count20261662Expected Count25.420.316.362.0TotalCount12398

16、79300Expected Count123.098.079.0300.0表4-9-3 卡方检验结果Chi-Square TestsValuedfAsymp. Sig. (2-sided)Pearson Chi-Square10.450a6.107Likelihood Ratio10.1836.117Linear-by-Linear Association.0461.830N of Valid Cases300a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.11.图4-9-5 获

17、知方式与城市交叉分组的条形图交叉表分析时需要注意的问题若需要检验的变量为定距以上的变量，则进行交叉表分析前需要把变量先转化为定类或定序变量。使用Pearson Chi-Square检验要求各单元的期望频数均大于5或者小于5的比例不能超过20%；当单元格的期望频数小于5的比例超过20%，或者当样本数小于20时，需要进行Fisher精确检验结果（Fishers Exact Test）。若要在结果中显示Fisher精确检验结果（Fishers Exact Test）需要在操作过程中单击按钮，弹出Exact Tests子对话框，如下图所示。Exact Tests子对话框是针对2*2以上的行*列表设定计

18、算确切概率的方法，系统默认是具有渐进分布的大样本数据的计算（Asymptotic only）。如果是大样本，单元格的期望频数小于5的比例超过20%，精确计算则选择：蒙特卡罗模拟（Monte Carlo）。蒙特卡罗模拟默认进行10000次模拟，给出99%置信区间。这些默认值均可更改。置信区间常用的值为90、95、99。Number of Samples参数框中通常输入样本量的数值。如果是小样本则必须选择：确切计算（Exact）。确切计算默认计算时间限制在5分钟内。下图是以利用data05-01中的数据，使用变量occcat80为工作性质分类，region为地区，childs为每个家庭的孩子数。将childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析时进行精确计算的操作选择。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 交叉分析

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：交叉表分析.doc
链接地址：https://www.deliwenku.com/p-33514166.html