模式识别第讲.ppt
《模式识别第讲.ppt》由会员分享,可在线阅读,更多相关《模式识别第讲.ppt(34页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、模式识别第讲现在学习的是第1页,共34页第3次课程概要n模式判别qPCAq特征评价q维数比率问题现在学习的是第2页,共34页PCAnPrincipal component analysisn主元分析主元分析 或或 主成分分析主成分分析n功能:简化复杂数据到低维空间,从而发现数功能:简化复杂数据到低维空间,从而发现数据中隐藏的简单结构。据中隐藏的简单结构。q原始数据源(生数据)通常有冗余,包含噪声原始数据源(生数据)通常有冗余,包含噪声qPCAPCA的目标:去除冗余,并发现重要特征的目标:去除冗余,并发现重要特征PCA特征评价维数比率问题现在学习的是第3页,共34页PCA的大致思路n认为原始数据
2、认为原始数据X是复杂的(有噪声有冗余),是复杂的(有噪声有冗余),要对要对X重新表示重新表示n重新表示后数据的维度即为隐藏于重新表示后数据的维度即为隐藏于X中的简单中的简单结构结构PCA特征评价维数比率问题现在学习的是第4页,共34页PCA怎么做?技术路线n利用线性代数为工具,用另一组基利用线性代数为工具,用另一组基去重新描述数据空间去重新描述数据空间n新的基能够最好地表示原数据新的基能够最好地表示原数据X Xn原有的基是什么样的形式呢?原有的基是什么样的形式呢?Nave basisNave basis:n目标目标:找到另一组基,能最好表达数据集,这个新的基是原有基的线性组合PCA特征评价维数
3、比率问题1.00.0.100.01.21mbbbB采用该方法就隐含了一个假设:采用该方法就隐含了一个假设:线性线性。数据限制在一个向量空间里,能被一组数据限制在一个向量空间里,能被一组基表示基表示现在学习的是第5页,共34页基变换nn n个样本n每个样本m m个特征n构成m mn n的矩阵X XnP是从X X到Y Y的转换矩阵n几何上,Y Y由对X X旋转拉伸得到nP的行向量构成一组新的基,而Y Y是在这组基下对X X的重新表示nmmnnmxpxpxpxpxxppPXY.111111PCA特征评价维数比率问题imiixpxpy.1现在学习的是第6页,共34页在线性的假设条件下,要解答n要寻求一
4、组变换后的基,也要寻求一组变换后的基,也就是就是P P的行向量的行向量pp1 1,p,pm m n这组基就是这组基就是X X的主元的主元n要解答的问题要解答的问题n1 1 我们要将我们要将X X转换成为的转换成为的Y Y是个什么样子?是个什么样子?n2 2 对应于对应于Y Y,如何求解,如何求解P P?PCA特征评价维数比率问题现在学习的是第7页,共34页n我们要将我们要将X X转换成为的转换成为的Y Y是个什么样子?是个什么样子?n回顾一下回顾一下PCAPCA要解决的问题,数据复杂混乱要解决的问题,数据复杂混乱n噪声噪声n冗余冗余PCA特征评价维数比率问题现在学习的是第8页,共34页重要特征
5、和噪声的数学描述n信噪比n要使得信噪比大,信号的方差大,噪声的方差小n假设:变化较大的信息认为是信号,变化较小的则是噪声PCA特征评价维数比率问题22noisesignalSNR现在学习的是第9页,共34页冗余的数学描述n该变量可以用其它变量表示,因此造成了信息冗余PCA特征评价维数比率问题协方差矩阵可以反映数据的噪声和冗余的程度现在学习的是第10页,共34页PCA的目标及它基于的假设PCA特征评价维数比率问题n通过基变换,对协方差矩阵进行优化,即使得变换后的数据集Y,其协方差矩阵为对角阵。n线性假设线性假设:PCA内部模型是线性的,是基于原始特征的线性变换。(如果原始数据存在非线性属性,则经
6、PCA分析后将不再反映这种非线性属性)n方差越大,特征越重要方差越大,特征越重要。(有些对整体方差贡献不大的主成分,有可能在样本分类方面起至关重要的作用)n冗余用相关性表示冗余用相关性表示。(数据的概率分布需要满足高斯分布或是指数型的概率分布)n主元正交,即转换基是一组标准正交基。该假设的作用是方便求解现在学习的是第11页,共34页PCA求解:特征根分解(1)PCA特征评价维数比率问题EDEA 寻找一组正交基组成的矩阵P,有Y=PX,使得CY是对角阵,则P的行向量,就是数据X的主元向量。11)(1111)(1111PAPnPXXPnPPXXnPXPXnYYnCYD是一个对角阵E是对称阵A的特征
7、根排成的矩阵解题技巧,令PET现在学习的是第12页,共34页PCA求解:特征根分解(2)PCA特征评价维数比率问题 DnPPDPPnPPDPPnPDPPPnPAPnCY111111111111EDEA EP 1 PP现在学习的是第13页,共34页PCA算法的一般求解步骤n由以上推导,由以上推导,PCA算法的一般求解步骤如下算法的一般求解步骤如下n1 采集数据,形成mn的矩阵,m为特征个数,n为样本数。n2 矩阵中的每个元素减去该维的均值,得到Xn3 求XX的特征根PCA特征评价维数比率问题现在学习的是第14页,共34页将PCA用于降维n由PCA线性变换后得到的数据集,可认为是没有冗余的。n在此
8、结构下,可以讨论样本中的哪些属性(特征)比较重要。n按方差由大到小排序,但按方差由大到小排序,但丢弃的准则是什么?丢弃的准则是什么?PCA特征评价维数比率问题方法一:Kaiser准则 丢弃那些低于1的特征值方法二:观察特征值的图,通过斜率检测,即从图中曲线开始变平缓的点开始,丢弃后面的全部特征值。现在学习的是第15页,共34页有关PCA需要注意的一个问题n原始数据集里,每个特征是有意义的。比如图像中一个对象的形状、颜色等。n但是线性变换后,语义信息丢失了。n这对我们解释识别过程带来一定的问题。PCA特征评价维数比率问题现在学习的是第16页,共34页特征评价n对于特征分类能力的评价对于特征分类能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别
限制150内