交叉表分析.doc
《交叉表分析.doc》由会员分享,可在线阅读,更多相关《交叉表分析.doc(8页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、如有侵权,请联系网站删除,仅供学习与交流交叉表分析【精品文档】第 8 页data05-02为某公司工资数据(n=15)。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。可以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs为每个家庭的孩子数。将childs为行变量,occcat80为列变量,region为控制变量选入Layer of框中,进行交叉表分析。列联表(交叉表)分析1、 项目名称Crosstabs过程4、实训原理Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n
2、维列联表,并计算相应的百分数指标。4-1 列联表分析的含义与任务在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。很明显,如果还采用单纯的频数分析方法显然不能满足要求。因此,我们需要借助交叉分组下的频数分析,即列联表分析。列联表分析的主要任务有两个:(1)根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。 (2)在交叉列联表的基础上,分析两变量之间是否具有独立性或一定的相关性。 4-2 卡方检验的原理为了理解列联表中行变量(Row)和
3、列变量(Column)之间的关系,我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样,卡方检验主要包括三个步骤:(1)建立零假设:行变量和列变量相互独立。 (2)选择和计算检验统计量。列联表分析中的检验统计量是Pearson卡方统计量。其公式为:(4-9-1)其中,r为列联表的行数,c为列联表的列数,为实际观测频数,期望观测频数。期望频数的计算公式为:(4-9-2)其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。由式(4-9-1)可以看出,卡方统计量的大小取决于两个因素:一个是列联表的格子数;另一个是观测频数和期望频数
4、的差值。在列联表固定的情况下,卡方统计量取值的大小取决于观测频数和期望频数的总差值。当总差值越大时,卡方值也就越大,表明行列变量之间越相关;反之,当总差值越小时,卡方值也就越小,表明行列变量之间越独立。(3)得出结论并做决策。根据卡方统计量的概率P值和显著性水平进行比较,做出拒绝还是接受原假设的结论。如果卡方检验的概率P值小于显著性水平,则拒绝原假设,认为行列变量之间不独立,两者之间存在依存关系。反之,如果卡方检验的概率P值大于显著性水平,则接受原假设,认为行列变量之间独立,两者之间不存在依存关系。在卡方检验中还需要注意:交叉列联表中不应有期望频数小于1的单元格,或者不应有大量期望频数小于5的
5、单元格。如果交叉列联表中有20%以上单元格中的期望频数小于5,则不应用卡方检验,可以采用似然比(Likelihood Ratio)卡方检验等方法进行修正。5、背景材料某新产品上市前一个月中,分别对北京、上海、深圳三地进行了市场调查,调查表中有一项是关于顾客获知该产品的渠道。随机抽取了300份调查表,统计顾客获知产品渠道的数据如下,SPSS数据文件见4-9.sav。表4-9-1 顾客获知某新产品渠道的调查数据城市北京上海深圳合计朋友电视网络报刊2096034261333261653028622712388合计12398793006、 实训步骤6-1 选择菜单“Analyze”“Descripti
6、ve Statistics”“Crosstabs”弹出如图4-9-1所示的窗口,进入列联表分析界面。图4-9-1 列联表分析窗口6-2 选择列联表中的行变量进入Row(s)框,如表4-9-1中的获取新产品的渠道变量。6-3 选择列连表中的列变量进入Column(s)框,如表4-9-1中的城市变量。6-4 Layer框:Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。Layer在这里用的比较少,在多元回归中我们将进行详细的
7、解释。6-5 选择Display clustered bar charts复选框表示输出分组条图。选择Suppress table复选框表示禁止在结果中输出列联表。6-6 单击按钮,弹出Exact Tests子对话框,如图4-9-2所示。图4-9-2 Exact Tests子对话框Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo)或确切计算(Exact)。其中,系统默认是不计算;蒙特卡罗模拟默认进行10000次模拟,给出99%置信区间;确切计算默认计算时间限制在5分钟内。这些默认
8、值均可更改。6-7 单击按钮,弹出Statistics子对话框,用于定义所需计算的统计量。如图4-9-3所示。图4-9-3 Statistics子对话框Statistics子对话框包括:(1)Chi-square复选框:选择是否进行卡方检验,计算值。(2)Correlaitons复选框:计算列联表两变量的Pearson相关系数和Spearman等级相关系数。 (3)Nominal复选框组:选择是否输出反映分类资料相关性的指标,共有四个选项:Contingency coefficient复选框:列联系数,其值界于01之间,取值越大说明两变量之间的相关性越强。Phi and Cramers V复选
9、框:这两者也是基于值的,Phi在四格表检验中界于-11之间,在R*C表检验中界于01之间;Cramers V则界于01之间。该指标的绝对值越大,说明两变量之间的相关性越强。Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差。Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差(表示使用一个变量的值来预测其他变量的值可能发生的错误程度),其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。(4)Ordianl复选框组:选择是否输出反映定序资料相关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 交叉 分析
限制150内