《基于SPSS的主成分分析与因子分析的辨析.doc》由会员分享,可在线阅读,更多相关《基于SPSS的主成分分析与因子分析的辨析.doc(6页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 统计 教育 年 第 期 基于 的主成分分析 $ $ 与因子分析的辨析 文 唐功爽 摘要 : 基于 的主成分分 析、因子分析的 应用文章 不断推出 , 给读者以许多的启示。但在实际应用中也出现了 一些问题。本文力足于 主成分分析的基本思想 , 分析在用 进行主 成分分析 及因子 分析时 出现的 错误及 其产生 数变量 , 这也存在问题。 二、问题 产生 的原 因分 析 就笔者学习与应用该方法过程中的体会而言 , 问题的 的原因 , 并给出了正确的分析结果和相关建议 关键词 : 主成分分析 ; 因子分析 ; 。 产生带有普遍性。主要是对主成分分析 的原理与步骤的模 糊认识造成的 , 关于主成分分
2、析与 因子分析的原理 , 文献 有详 细的叙述 , 这里拟从以下几方面加以阐述。 、主成分分析中数据的标准化问题 设 某经 济问题 涉及 个 样品的 个 指标 的分 析问 题 ! 关于主成 分分析、因子分 析的应用 书籍、文章非常 多 , 其中大多也是利用 统计软 件进行处理的 , 给读者以许 ( ) , 原始数据记 为 : ( , , ) , 它服从正态分布 多的启示 , 但在实际应用中也出现了一些问题 。 ( , ! ) 。在应用主成分分 析之前 , 之所以要对数据进行 标准 一、关于主 成分 分析 应用 中的 问题 如在参考文献 中 ( 第 页 ) , 有两处模 糊问题值 得澄清 : 一
3、是在计算出“累计贡献率 , 则 , 即取 个主成分变量来代 替原来 个变量。前 个主成分对应 的载荷 ( 即特征向量 ) 列于表 ”。 这里的“主成分对应的载 荷”与样本相关矩 阵的特征根 所对应的“特 征向量”不是一 回 事 , 从 文章中的 输出结果中的 英文“ ”似 乎可以断定文献 中的表 是特征向量。二是在主成分模型 : 中 , 若表 诚如作者所称为载荷矩阵 , 那 么模型就是错误的 , 模型中变量的系数应该是样本相关矩阵的特征根所对应的 特征向量。即使文献 中表 是特征向量 , 模型中的 变量 也应该是原 变量的标准化变量 , 应注释清楚 , 这样才能计 算出正确的综合得分。此两处模
4、糊问题 , 在统计分析软件 参考文献 一书中亦是如此 , 已为参考文献 所指出。 再如在参考 文献 ( 以 下简称卢 书 ) 的 页 , 把最大 正交旋转后 的因子矩阵写 成了“旋转后 的因子 ( 主成分 ) 表 达式 , 这是错误的 , 因 为在主成 分 分析中没有 因子旋转 的 ! 在 页第 行中把因子得分变量直接作为主成分分 $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ 化处理 , 主要基于以下考虑。 经济 问题所涉 及的指标变 量大多具 有不同的量 纲 , 有 的指标值数量级也相差悬殊 , 这会给应用带来新的问题。不 同
5、的量纲原则上是不能求和的 , 即使形 式上得到了指标间 的线性组合 , 其实际 ( 经济 ) 意义也难以解释。对标准化后的 数据进行分析 , 既便于解释主成分的现实经济意义 , 又避免 了过于突 出数量级大的变量。 多数文献给出的主成分模型都是基于标准化后的 数据 变量 , 同时指出仍 记为 ( 笔者揣测此 可能就是产生前述 模 糊论述 的原因之一 ) , 计算各 指标得分时 , 应 将标准化的 数 值带入主成分模型中 , 以得到正确的综合评分。 、主成分分析中特征向量与因子载荷量的使用 在主成分分析中使用的特征向量 , 是样本相 关矩阵的 特征根所对应的特征向量 , 它是建立主成分模型所必需
6、的。 () ! , ( # , # , , 量为。所以求主成分的过程实际上就是求 相关矩阵的特征 值和特征向量的过程。主成分个数的确定有两个标准 : 累计 贡献率达到 以上 ; 或在特征根的均值以上。可见建立主 成分模型是不需要因子载荷量的。 ! 而 是相关矩阵的特征根 其相应的特征向 总 第 期 问题探讨 表 注 : 为了与卢书上的内容相对应在此只列出了所选定三个主成分。 因子载荷量是主成分变量与原变量的相关系数 , 其绝 、将原始 数据 进行正向 化、标准化 处理 ( 在 对值大小刻画了某主成分的主要经济意义及其经济成因 , 中标准化处理是系统默认的 ) 。 能够反映出主成分与各变量间的亲
7、疏关系 。在主成分分析 、计算样本相关 系数矩阵 : 在 中 的“ 中 , 为我们 对主成分做出合理 的经济解 释提供了重 要依 ”中给出 。 据。经济意义上解释不清 , 数量上的计算再好也是没用的。 主成分的载荷 ( ) 与特征向量 ( ) 之间的 关系为 ! 应混淆载荷与特征向量之间的区别。这也是主成分分析在 实际应用中常犯的错误之一。 三、基 于 的 主成 分 分析 的 步骤 及 其因 子分 析 ( 一 ) 主成分分析在 中的实现步骤 选择菜单中“ ”打开 因子分析对话框。 、求相关系数矩阵特征值 与特征向量 : “ ” 中实现 , 但 只输 出因 子载 荷阵 “ ”和 特 征根“ ”
8、, 见表 。从 输出结 果我们可以取得每 个主成分的方 差 , 即特 征根 , 它的大小表 示了对主成 分能够描 述的原来 所有信息的多少。“卢书”中只取了三个主成分的累计方差 贡献才 , 有 点偏颇 , 应取 个主成分比较合理 , 但 是“卢书”只是为了说明方法的应用。所以 , 我们在实际应 用中 , 可以先尝试着把所有的变量都作为主成分进行初步 计算 , 然 后再以累计贡 献率 达到 以上、现实经 济意义 等为参考 , 确定主成分的个数。 表 主成分分数与因子综合得分表 主成分分数 综合 得分 因 子综 合得 分 ( 未旋 转 ) 卡 迪拉 克 雪 佛龙 雪佛 龙 雪 伏龙 福 特 福 特
9、 福特 本 田 本 田 林肯 普 利茅 斯 普 利茅 斯 普 利茅 斯 庞体阿克 大众 大众 沃尔沃 ! ( ,)( ) 。可见 , 在建立主成分模型时 , 不 统计 教育 年 第 期 特征向量矩阵必须再根据公式 ( ) 来计算求得。在确定 主成分个数 后 ( ) 即可建立主成 分模型 ( 取其前 ! 个变量 , 其中 为原始变量标准化后的数据向量 ) 。即 : 同理也可以得到第二、三主成分的模型。 、根据因 子载荷量对 主成分作 经济分析与 解释 , 构造 综合评价函数 的方差贡献率 , 本文采用的是文献 所提供的方法。 在各个主成分的得分的确定上卢书把各变量的因子得 分与其主成分分数相混淆
10、了 , 主成分分数是把标准化后的 原始数据代入主成分模型中获得的。而因子 得分是通常是 利用回归法对公共因子与变量建立回归模型 , 再把各变量 数据代入回归模型求得的。笔者通过分析给出正确的主成 分分数 ( 见表 ) 。同时通过 表 的结果对主成 分分数计算 的综合分数 与因子分析未 经旋转的 综合分数进 行比较 , 可 以看出二者之间有很大的区别 , 如果用各个因子的得分来 代替主成分分数的话就可能得出大相径庭的结论。 ( 二 ) 因子分析相关问题 主成分分析与因子分析的区别。因子分析是主成分方 法的扩展 , 研究如何以最少的信息丢失 , 将众多原始变量浓 缩成少数几个因子变量 , 以及如何
11、用因子变量分析解释现 实经济现象的一种多元统计分析方法。其建模步骤的前几 步与主成分分 析的是一样 , 之后就是求解初始因子载荷矩 阵并建立因子模型。其优势在于其对因子载荷矩阵的旋转 变换 , 这种因子旋转使因子的经济意义更加明确。它们之间 关键的不同从模型的表示开始 , 主成分模型为 : , ( 主成 ! 分是原变量的线性组合 ) 。因子模型为 ( 原变量是新因 子的线性组合 ) , 是公共因 子。特征向量与因 子载荷量之 应用区别就显而易见了。关于因子分析的在 中的具体 实 现在文献 有详细的叙述 , 这里不再赘述。 因子分析有一个潜在的前提要求就是原有变量应具有 较强的相关关系 , 通常
12、大部分相 关系数在 以上就可以 , 在 中是 通 过 “ ”来检验。但是在实际应用中 , 大多数 文章都忽视 了这一点。反映原始变量信息的提取程度的变量共同度在 结果中的“ ”给出 , 但是实际 应用中也是被忽视的。这 些重要细节的忽略往往会影响所 研究问题的科学性。 另一个值 得关注的问题是 : 因子分析中旋转前后的因 子得分函数的系数、因子得分变量都是不同的。如果在考虑 # # # # # $ 小进行排序比较之。至于权数 的确定 , 有的文献是直接用 旋转后 的综合 因子得 分时 , 就以 旋转后 的“ ”作为权数 , 因为 因子的经 济意义 ( 旋 转 的目的 ) 、因子得分函数的系数都
13、是基于旋转后的结果 取得 的。在文献 第 页中就比较模糊 , 作者在计算因子 得分时没有指出求因子得分函数的系数是旋转前的还 是 后 的 , 进而使读者对计算综合得分的系数容易产生误解。 四 、结 束语 不管是应用 或是 等软件进行实际应用时 , 关 键是对所研究的实际问题、对所用方法的基本思想要 有深 刻的理解 , 要能 够对输出结果有较好的认识和合理的解释 , 并能为决策制定提供相应地决策支持 , 科学的威力才 能够 真正得以发挥。 参考文献 : 段清堂 , 刘玲芬 主成分分析在大学生体育合格标准综 合评价中的应用 数理统计与管理 ( ) 卢纹岱 统计 分析 电子工业出版 社 何晓群 现代统计分析方法与应用 中国人民大学出 版社 郭显光 如何用 软件进行主成分分析 统计与信 息论坛 ( ) 童忠勇 统计分析软件 陕西人民教育出 版社 方开泰 实用多元统计分析 华东师范大学出版社 林海明 , 林敏子 主成分分析法与因子分析法的应用辨析 数量经济技术经济研究 ( ) 薛薇 统计 与 的应 用 中国人民大学出版 社 作者单位 : 山东经济学院统计与数学学院 ( 责任编辑 : 刘全 )
限制150内