第6章无监督学习ppt课件.pptx

上传人：春哥&#****71;

文档编号：16976687

上传时间：2022-05-20

格式：PPTX

页数：61

大小：3.85MB

( 4.5 )

《第6章无监督学习ppt课件.pptx》由会员分享，可在线阅读，更多相关《第6章无监督学习ppt课件.pptx（61页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、章节目录6.1 6.1 聚类概述聚类概述6.2 K-means6.2 K-means算法算法6.3 DBSCAN6.3 DBSCAN算法算法6.4 EM6.4 EM算法算法6.5 6.5 关联分析关联分析6.6 6.6 竞争网络竞争网络6.7 6.7 无监督学习应用概述无监督学习应用概述 6.8 6.8 案例分析案例分析什么是无监督学习？什么是无监督学习？前面的机器学习算法，都使用了由一系列标记好的目标数据组成的训练集。但现实生活中，我们往往很难得到标记好的数据，或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。因此，这种没有标注的训练数

2、据集，需要根据样本间的统计规律对样本集进行分析，我们称为无监督学习。什么是无监督学习？什么是无监督学习？无监督学习的数据集和有监督学习的不同，没任何标签，也就是没有“正确的输出结果”，在此过程中没有指导者，只有计算机自己学习。无监督学习的常见任务包括聚类等。聚类概述聚类概述聚类就是一种典型的无监督学习。聚类又称为点群分析，聚类的目标是在一个对象（模式、数据点）的集合中发现其自然分组。定义：给定n个对象的某种表示，根据某种相似度度量，发现K个簇，使得簇内对象的相似度高，簇间对象的相似度低。聚类类别聚类类别聚类算法种类繁多，具体的算法选取取决于数据类型、聚类的应用和目的。常用的聚

3、类算法大致可分成如下几类：基于划分的聚类算法基于密度的聚类算法基于模型的聚类算法基于层次的聚类算法基于网格的聚类算法聚类类别聚类类别基于划分的聚类算法。按照某种目标将数据集划分成若干个组，划分的结果使目标函数值最大化(或最小化)。代表算法有K-means算法、K-medoids算法以及CLARANS算法等。基于密度的聚类算法。只要在临近区域的密度(对象或数据点的数目)超过某个阈值，就把它加到与之相近的聚类。代表算法有DBSCAN算法、OPTICS算法及DENCLUE算法等。聚类类别聚类类别基于模型的聚类算法。假定了一个模型，寻找数据对给定模型的最佳拟合。代表算法有基于统计学模

4、型的EM算法和COBWEB算法，以及基于神经网络模型的竞争网络。基于层次的聚类算法。对给定数据集进行层次的分解，形成一颗以簇为结点的树。代表算法有BIRCH算法、CURE算法、ROCK算法及Chameleon算法等。基于网格的聚类算法。将对象空间划分为有限个单元以构成网格结构，然后利用网格结构完成聚类。代表算法有STING算法、WaveCluster算法等。背景背景 K-means算法是由Steinhaus于1955年、Lloyd于1957年、Ball和Hall于1965年、Mcqueen于1967年分别在各自的不同的科学研究领域独立提出来。自被提出以来，这一算法在许多学科领域内得到了大

5、量的研究和应用，具体的如数据压缩、数据分类、密度估计等诸多方面。由于其算法思想简洁易懂，而且对于很多聚类问题都可以花费较小的计算代价而得到不错的聚类结果，K-means算法成为无监督聚类算法中较为常用的算法之一。准则函数准则函数算法描述算法描述 K-means算法的目标：找到最小化SSE的聚类结果。迭代过程（1）分配过程。在分配过程中，每个数据样本都要被分配到与它距离最近的簇质心所属的簇中；（2）更新过程。在更新过程中，簇质心需要被重新计算，采用分配到这一簇中的所有数据样本的平均值对簇质心进行更新。算法流程算法流程算法：K-means算法。用于划分的K-means算法，每个簇的质心用簇

6、中所有对象的均值来表示。输入：簇的数目k和包含n个对象的数据集。输出：k个簇，使平方误差(SSE)最小。方法：随机地选择k个对象，每个对象代表一个簇的初始均值或质心。对剩余的每个对象，根据它与簇均值(质心)的距离，将其指派到最相似的簇。计算每个簇的新均值(质心)。回到步骤2)，循环，直到簇的均值(质心)不再发生变化。工作过程工作过程图(a)，表示初始数据集，假设k=2；图(b)，我们随机选择两个簇质心，即图中红蓝质心，然后分别求所有样本到两质心距离，并标记每个样本类别为和该样本距离最小的质心类别；图(c)，经计算样本和红蓝质心的距离，我们得到所有样本的第一轮迭代的类别。此时对当前标记为红

7、蓝点分别求其新的质心；图(d)，新的红色质心和蓝色质心的位置发生变动；图(e)和图(f)重复了我们在图(c)和图(d)的过程，即将所有点的类别标记为距离最近的质心的类别并求新的质心。 K K值选择值选择当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE下降幅度会很大；当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓；也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。目前常使用参考SSE的“手肘法”。 “手肘法”核心思想：随着聚类数k的增大，样本划分会更加精

8、细，每个簇的聚合程度会逐渐提高，那么SSE自然会逐渐变小。初始质心选择初始质心选择初始化的聚类质心距离要尽可能地远。首先，随机选择一个点作为第一个初始类簇质心然后，选择距离该点最远的那个点作为第二个初始类簇质心接着，再选择距离前两个点的距离最远的点作为第三个初始类簇的质心以此类推，直至选出K个初始类簇质心。 K-meansK-means算法总结算法总结当结果簇是密集的，而簇之间的区别明显时，它的效果较好。对于处理大数据集，该算法是相对可伸缩的和高效的，因为它的算法复杂度是O(nkt)，其中n是数据个数，k是簇的个数，t是迭代的次数，通常，kn，且tn。算法通常终止于局部最优解。

9、只有当簇均值有定义的情况下才能使用，这可能不适用于某些应用，例如涉及有分类属性的数据。必须事先给定要生成的簇的数目k。对噪声和孤立点数据敏感，少量的该类数据能够对平均值产生极大的影响。不适合发现非凸形状的簇，或者大小差别很大的簇。背景背景 DBSCAN(Density Based Spatial Clustering of Application with Noise，具有噪声的基于密度的空间聚类应用)由Ester、Kriegel、Sande和Xu于1996年提出，是一种基于高密度连接区域的密度聚类算法。该算法将具有足够高密度的区域划分成簇，并可以在带有“噪声”的空间数据库中发现任意形

10、状的聚类，它定义簇为密度相连的点的最大集合。基本概念基本概念基本概念基本概念连接性和最大性连接性和最大性概念解释概念解释由上图可看出m，p，o，r 都是核心对象，因为他们的内都只是包含3个对象。对象q是从m直接密度可达的。对象m从p直接密度可达的。对象q是从p(间接)密度可达的,因为q从m直接密度可达，m从p直接密度可达。r和s是从o密度可达的，而o是从r密度可达的，所有o，r和s都是密度相连的。算法流程算法流程算法：DBSCAN算法。基于高密度连接区域的密度聚类算法。 DBSCANDBSCAN算法总结算法总结聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。聚类速度快且能够有效处

11、理噪声点和发现任意形状的空间聚类。与与K-means比较起来，不需要输入要划分的聚类个数。比较起来，不需要输入要划分的聚类个数。聚类簇的形状没有偏倚。聚类簇的形状没有偏倚。可以在需要时输入过滤噪声的参数。可以在需要时输入过滤噪声的参数。当数据量增大时，要求较大的内存支持当数据量增大时，要求较大的内存支持I/O消耗也很大。消耗也很大。当空间聚类的密度不均匀、聚类间距差相差很大时，聚类质量较当空间聚类的密度不均匀、聚类间距差相差很大时，聚类质量较差，因为这种情况下参数差，因为这种情况下参数、MinPts选取困难。选取困难。算法聚类效果依赖于距离公式选取，实际应用中常用欧式距离，算法聚类

12、效果依赖于距离公式选取，实际应用中常用欧式距离，对于高维数据，存在对于高维数据，存在“维数灾难维数灾难”。期望最大化期望最大化期望最大化(Expectation Maximization, EM)是一种基于模型的聚类算法。假设样本分布符合高斯混合模型，算法目的是确定各个高斯部件的参数，充分拟合给定数据，并得到一个模糊聚类，即每个样本以不同概率属于每个高斯分布，概率数值将由以上各个参数计算得到。高斯混合分布高斯混合分布混合成分后验分布混合成分后验分布高斯混合聚类高斯混合聚类从原型聚类的角度来看，高斯混合聚类时采用概率模型对原型进行刻画，簇划分则由原型对应后验概率确定。极大似然估计极大似

13、然估计 EMEM算法求解算法求解即各混合成分的均值可通过样本加权平均来估计，样本权重即各混合成分的均值可通过样本加权平均来估计，样本权重是每个样本属于该成分的后验概率。是每个样本属于该成分的后验概率。 EMEM算法求解算法求解EMEM算法求解算法求解EMEM算法总结算法总结 EM算法比K-means算法计算复杂，收敛较慢，但比K-means算法计算结果稳定、准确。需要已知样本聚类数目。对初始值敏感，通常需要一个好的、快速的初始化过程。局部最优解。对孤立点敏感，有噪声时效果差。关联分析关联分析关联分析是在交易数据、关系数据或其他信息载体中查找存在于项目集合或对象集合之间的频繁模式、

14、关联、相关性成因果结构。通俗地说，关联分析就是发现隐藏在大型数据集中的令人感兴趣的联系。所发现的联系通常用关联规则或者频繁项集的形式表示：该规则表明和之间存在很强的联系。XY购物篮关联分析购物篮关联分析关联分析最为普通的应用就是分析购物数据(称为购物篮数据)，从而发现各商品之间的联系，下表给出了某商场部分客的购物记录。购物篮关联分析购物篮关联分析通过观察，可以看出大部分买了尿布的购物单里都包括啤酒，因此可以推测尿布和啤酒的销售之间存在某种很强的联系或者规则，表示如下：令是购物篮数据中所有项的集合，而是所有事务的集合。每个事务包含的项集都是I的子集。在关联分析中，定义项集为包含0

15、个或者多个项的集合。如果一个项集包含k个项，则称为k项集，如项集可乐、啤酒、面包、尿布是一个4项集。项集的一个重要属性为它的支持度计数，定义为包含特定项集的事务个数，其数学表达式如下：其中，表示集合的元素个数。尿布啤酒支持度和置信度支持度和置信度为了形象化地表示关联关系，可以用蕴含表达式表示关联规则，如下：定义支持度和置信度来表示关联规则的强度，支持度用于表示规则在数据集中出现的频繁程度，而置信度用于表示X事务中出现Y的频繁程度，数学公式如下：其中，N为事务总个数。显然关联度和置信度越大，关联规则的强度越大。关联规则发现关联规则发现关联分析的目标就是在给定的事务集合中发现那些支持度

16、和置信度都比较大的关联规则，该过程定义为关联规则发现，其数学公式如下：其中为某一条规则，minsup为支持度阈值，minconf为置信度阈值。频繁项集和强规则频繁项集和强规则对于项集X和它的子集Xi，有，因为则可以定义频繁项集为满足最小支持度阈值的项集，那么它们的所有子集也是频繁项集。可以定义强规则为频繁项集中的高置信度关联规则。那么关联规则发现的主要两个子任务为：找出所有的频繁项集，该过程称为颓繁项集产生。发现所有的强规则，该过程称为规则产生。支持度剪枝支持度剪枝根据频繁项集的定义，显然有：如果一个项集是频繁的，则它的所有子集一定也是频繁的，该原理即为先验原理。反之，如果一个项集是

17、非频繁的，那么它的所有超集也是非频繁的。利用该原理，可以进行基于支持度修剪指数搜索空间的策略，称为基于支持度的剪枝。该技术利用了支持的反弹调性，一个项集的支持度决不会超过它的子集的支持度。竞争网络竞争网络 Hamming网络是最简单的竞争网络之一，其输出层的神经元通过互相竞争从而产生一个胜者。这个胜者表明了何种标准模式最能代表输入模式。这种竞争是通过输出层神经元之间的一组负连接（即侧向抑制）来实现的。我们从简单的竞争网络开始，然后介绍结合网络拓扑结构的自组织特征图模型。最后，讨论学习向量量化网络，它将竞争和有监督学习框架相结合。 Hamming网络第二层之所以被称为竞争(competiti

18、on)层，是由于其每个神经元都激活自身并抑制其他所有神经元。我们定义一个传输函数来实现递归竞争层的功能： acompet（n）它找到拥有最大净输入的神经元的索引i*，并将该神经元的输出置为1(平局时选索引最小的神经元)，同时将其他所有神经元的输出置为0。下图展示了一个竞争层。竞争层竞争层为了模仿生物系统的活动区，且不必实现非线性的加强中心抑制周围的反馈连接，Kohonen设计了如下简化形式，提出了自组织特征图（Self-Organizing Feature Maps ,SOFM）。 SOFM网络首先使用与竞争层网络相同的方式得到获胜的神经元i*，然后采用Kohonen规则更新获胜神经元周围

19、某一特定邻域内所有神经元的权值向量。自组织特征图自组织特征图 SOFM中的神经元不必排列成二维形式，它也可能以一维、三维甚至更高维的形式排列。对于一个一维SOFM，非端点处的每个神经元半径为1的邻域内只有2个邻居神经元（位于端点处的神经元仅有1个邻居神经元）。距离的定义可以有多种方式，例如，为了高效实现，Kohonen提议使用矩形或者六边形邻域。事实上，网络的性能对邻域的具体形状并不敏感。 SOFMSOFM网络性能网络性能商业领域商业领域无监督学习被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征，是细分市场的有效工具，同时也可用于研究消费者行为，寻找新的潜在市场、选择实验

20、的市场，并作为多元分析的预处理。无监督学习在反欺诈方面也有广泛应用。超市希望满足不同客户群体超市希望满足不同客户群体需求需求，增加销售量；增加销售量；保险公司希望了解购买保险的不同保险公司希望了解购买保险的不同客户群所具有的一般特征；客户群所具有的一般特征；医生希望知道同种疾病在不同人群医生希望知道同种疾病在不同人群中的病理表现中的病理表现；互联网欺诈检测互联网欺诈检测。生物领域生物领域在生物领域，大量生物学实验积累了数以万计的生物信息数据。如何有效进行数据采集、整理、检索、分析，从中提取规律，上升为理论，“读懂”基因组的遗传信息，以便指导研究工作。比如利用无监督学习对基因表达数据、蛋

21、白质序列数据等进行分析，对蛋白质应用连续频繁模式挖掘算法找出频繁定长模式，然后对频繁模式进行裁减，利用剩余的模式建立新空间，把蛋白质序列数据在新空间上投影，计算序列间的相似矩阵，最后进行聚类分析。地学领域地学领域地理信息系统是一种十分重要的空间信息系统，是在计算机软硬系统支持下，对整个或部分地球表层有关地理分布数据进行采集、存储、管理、分析、显示和描述的技术系统。聚类是一种典型的无监督式学习方法，基于相似性将对象聚集成不同的类簇或子集，使同一个类簇中的对象都具有相似的属性。可以通过聚类算法来识别用户感兴趣的地点和区域、发现异常事件、挖掘轨迹中的序列特征等。使用使用K-meansK-me

22、ans对用户购物行为聚类和推荐对用户购物行为聚类和推荐通过K-means算法将具有相似购物行为的用户聚类成簇，分组对各类别的用户做针对性的商品种类推荐。本案例使用模拟数据集，对用户购物行为聚类推荐进行演示。使用使用DBSCANDBSCAN清洗清洗GPSGPS轨迹数据轨迹数据城市交通运行中产生大量的城市交通运行中产生大量的GPSGPS数据，这些数据在采集数据，这些数据在采集过程时常出现位置偏差，导致过程时常出现位置偏差，导致GPSGPS轨迹数据的高噪声特轨迹数据的高噪声特点。点。本案例利用本案例利用DBSCANDBSCAN聚类算法清洗聚类算法清洗GPSGPS轨迹数据。轨迹数据。左图为左

23、图为原始数据，右图为清洗后数据。原始数据，右图为清洗后数据。高斯混合模型的高斯混合模型的EMEM聚类聚类高斯混合模型EM聚类的目的是确定各个高斯部件的参数，充分拟合给定数据，并得到一个模糊聚类，即每个样本以不同概率属于每个高斯分布，概率数值将由以上各个参数计算得到。学习向量量化(learning vector quantization,LVQ）网络是一种混合型网络，它使用无监督和有监督学习来实现分类。学习向量量化解决分类问题学习向量量化解决分类问题训练一个LVQ网络解决如下的分类问题学习向量量化解决分类问题学习向量量化解决分类问题学习向量量化解决分类问题学习向量量化解决分类问题随机初始化行向量第一次迭代之后行向量多次迭代之后行向量

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

30 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第6章无监督学习ppt课件监督学习 ppt 课件

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第6章无监督学习ppt课件.pptx
链接地址：https://www.deliwenku.com/p-16976687.html

第6章 无监督学习ppt课件.pptx

第6章无监督学习ppt课件.pptx