主成分分析、因子分析、聚类分析的比较与应用.doc
《主成分分析、因子分析、聚类分析的比较与应用.doc》由会员分享,可在线阅读,更多相关《主成分分析、因子分析、聚类分析的比较与应用.doc(4页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、2007 年第 6 期 山 东 教 育 学 院 学 报 总第 124 期 主成分分析 、 因子分析 、 聚类分析的比较与应用 李新蕊 ( 济南大学 政治与公共管理学院 , 山东 济南 250022) 摘要 : 主成分分析 、 因子分析 、 聚类分析是三种 比较有价值的多元统计方法 , 但同时也是在使用过程 中容易误 用或混淆的几种方法 。 本文从基本思想 、 数据的标准化 、 应用上的优缺点等方面 , 详细地探讨了三者的异同 , 并且 举例说明了三者在实际问题中的应用 。 关键词 : 主成分分析 ; 因子分析 ; 聚类分析 中图分类号 : G441 文献标识码 : A 文 章编号 : 1008
2、 2816( 2007) 06 0023 04 一 、 引言 主成分分析就是将多项指标转化为少数几项 综合指标 , 用综合指标来解释多变量的方差 - 协 方差结构。综合指标即为主成分。所得出的少数 几个主成分 , 要尽可能多地保留原始变量的信息 , 且彼此不相关。因子分析是研究如何以最少的信 息丢失 , 将众多原始变量浓缩成少数几个因子变 量 , 以及如何使因子变量具有较强的可解释性的 一种多元统计分析方法。聚类分析是依据实验数 据本身所具有的定性或定量的特征来对大量的数 据进行分组归类以了解数据集的内在结构 , 并且 对每一个数据集进行描述的过程。其 主要依据是 聚到同一个数据集中的样本应该
3、彼此相似 , 而属 于不同组的样本应该足够不相似 。 三种分析方法既有区 别也有联系 , 本文力图 将三者的异同进行比较 , 并举例说明三者在实际 应用中的联系 , 以期为更好地利用这些高级统计 方法为研究所用有所裨益。 二 、 基本思想的异同 ( 一 ) 共同点 主成分分析法和因子分析法都是用少数的几 个变量 ( 因子 ) 来综合反映原始变量 ( 因子 ) 的主要 信息 , 变量虽然较原始变量少 , 但所包含的信息量 却占原始信息的 85% 以上 , 所以即使用少数的几 个新变 量 , 可 信度也 很高 , 也可 以有 效地解 释问 题。并且新的变量彼此间互不相关 , 消除了多重 共线性。这
4、两种分析法得出的新变量 , 并不是原 始变量筛选后剩余 的变量。在主成分 分析中 , 最 终确定的新变量是原始变量的线性组合 , 如原始 变量为 x1 , x2 , . . . , x3 , 经过 坐标变换 , 将原有 的 p 个相关变量 xi 作线性变换 , 每个主成分都是由原 有 p 个变量线性组合得到。在诸多主成分 Zi 中 , Z1 在方差中占的比重最大 , 说明它综合原有变量 的能力最强 , 越往后主成分在方差中 的比重也小 , 综合原信息的能力越弱。因子分析是要利用少数 几个公共因子去解释较多个要观测变量中存在的 复杂关系 , 它不是对原始变量的重新组合 , 而是对 原始变量进行分
5、解 , 分解为公共因子与特殊因子 两部分。公共因子是由所有变量共同具有的少数 几个因子 ; 特殊因子是每个原始变量独自具有的 因子。对新产生的主成分变量及因子变量计算其 得分 , 就可以将主成分得分或因子得分代替原始 收稿日期 : 2007 10 23 作者简介 : 李新蕊 ( 1982 ) , 女 , 山东莱阳人 , 发展与教育心理学硕士研究生。 1 ( 34) 24 李新蕊 : 主成分分析、因子分析、聚类分析的 比较与应用 2007 年第 6 期 变量进行进一步的分析 , 因为主成分变量及因子 变量比原始变量少了许多 , 所以起到了降维的作 用 , 为我们处理数据降低了难度 。 聚类分析的
6、基本思想 是 : 采用多 变量的统计 值 , 定量地确定相互之间的亲疏关系 , 考虑对象多 因素的联系和主导作用 , 按它们亲疏差异程度 , 归 入不同的分类中一元 , 使分类更具客观实际并能 反映事物的内在必然 联系。也就是说 , 聚类分析 是把研究对象视作多维空间中的许多点 , 并合理 地分成 若干类 , 因此它是一种根据变量域之间的 相似性而逐步归群成类的方法 , 它能客观地反映 这些变量或区域之间 的内在组合关系。 聚类 分析是通过一个大的对称矩阵来探索相关关系的 一种数学分析方法 , 是多元统计分析方法 , 分析的 结果为群集。对向量聚类后 , 我们对 数据的处理 难度也自然降低 ,
7、 所以从某种意义上说 , 聚类分析 也起到了降维的作用。 ( 二 ) 不同之处 主成分分析是研究如何通过少数几个主成分 来解释多变量的方差一协方差 结构的分析方法 , 也就是求出少数几个主成分 ( 变量 ) , 使它们尽可 能多 地保留原始变量 的信息 , 且彼此 不相关。它 是一种数学变换方法 , 即把给定的一组变量通过 线性变换 , 转换为一组不相关的变量 ( 两两相关系 数为 0, 或样本向量彼此相互垂直的随机变量 ) , 在 这种变换中 , 保持变量的总方差 ( 方差之和 ) 不变 , 同时具有最大方差 , 称为第一主成分 ; 具有次大方 差 , 称为第二主 成分。依次 类推。若共有
8、p 个变 量 , 实际应用中一般不是找 p 个主成分 , 而是找出 m ( m p) 个主成分就够了 , 只要这 m 个主成分能 反映原来所有变量的绝大部分的方差。主成 分分 析可以作为因子分析的一种方法出现。 因子分析是寻找潜在的起支配作用的因子模 型的方法。因子分析是根据相关性大小把变量分 组 , 使得同组内的变量之间相关性较高 , 但不同的 组的变量相关性较低 , 每组变量代表一个基本结 构 , 这个基本结构称为公共因子。对于所研究的 问题就可试图用最少个数的不可测的所谓公共因 子的线性函数与特殊因子之和来描述原来观测的 每一分量。通过因子分析得来的新变量是对每个 原始变量进行内部剖析。
9、因子分析不是对原始变 量的重新组合 , 而是对原始变 量进行分解 , 分解为 公共因子和特殊因 子两部分。具体地 说 , 就是要 找出某个问题中可直接测量的具有一定相关性的 诸指标 , 如何受少数几个在专业中有意义、又不可 直接测量到、且相对独立的因子支配的规律 , 从而 可用各指标的测定来间接确定各因子的状态。因 子分析只能解释部分变异 , 主成分分析能解释所 有变异。 聚类分析算法是给定 m 维空间 R 中的 n 个向 量 , 把每个向量归属到 k 个聚类中的某一个 , 使得 每一个向量与其聚类中心的距离最小。聚类可以 理解为 : 类内 的相关 性尽 量大 , 类间 相关性 尽量 小。聚类
10、问题作为一种无指导的学习 问题 , 目的 在于通过把原来的对象集 合分成相似的组或簇 , 来获得某种内在的数据规律。 。 从三类分析的基本 思想可以看出 , 聚类分析 中并没于产生新变量 , 但是主成分分析和因子分 析都产生了新变量。 三 、 数据标准化的比较 主成分分析中为了 消除量纲和数量 级 , 通常 需要将原始数据进行标准化 , 将其转化为均值为 0 方差为 1 的无量纲数据。而因子分析在这方面要 求不是太高 , 因为在因子分析中可以通过主因子 法、加权最小二乘法、不加权最小二乘 法、重心 法 等很多解法来求因子变量 , 并且因子变量是每一 个变量的内部影响变量 , 它的求解与原始变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 因子分析 聚类分析 比较 应用
限制150内