统计自然语言处理基础.ppt
《统计自然语言处理基础.ppt》由会员分享,可在线阅读,更多相关《统计自然语言处理基础.ppt(56页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、统计自然语言处理基础 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望提纲聚类概述l用途l种类“软”聚类,”硬”聚类层级聚类l单连通、全连通l平均连通l自顶向下聚类非层级聚类lK平均算法lEM算法2提纲聚类概述l用途l种类“软”聚类,”硬”聚类层级聚类l单连通、全连通l平均连通l自顶向下聚类非层级聚类lK平均算法lEM算法3聚类概述聚类算法的目标:l是将一组对象划分成若干组或类别,简单地说就是相似元素同组、相异元素不同组的划分过程。定义:l聚类是一个无指导的学习过程
2、,它是指根据样本之间的某种距离在无监督条件下的聚簇过程。45聚类概述用途:l在统计自然语言处理中,聚类算法有两个重要的用途:1.用于试探性数据分析2.概念一般化6聚类概述用途:l1.用于试探性数据分析当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的基本特性时,这是一个首要步骤。对于不懂英语的人也能通过下面的聚类树图对英文的词性有大致的了解。78聚类概述用途:l2.概念一般化以法英翻译为例,Friday前的介词未知,进行推断。已有的英文数据:on Sunday,on Monday,on Thursday.按照语法和语义聚类,Sunday,Monday,Thursday就会被
3、聚到一类,因为它们有相同的上下文模式。lUntil day-of-the-week,last day-of-the-week,day-of-the-week morning同类中的元素具有互换性,因此可以推断on Friday的正确性。9聚类概述聚类算法与分类算法的区别:l分类算法是一个有监督的学习过程,它需要对标注数据集合进行训练;l聚类算法则不需要”教师”的指导,不需要提供训练数据,倾向于数据的自然划分,因此被称为无监督的学习或者自动学习.10聚类概述聚类算法的分类:l聚类算法可分为两大类:层级聚类非层级聚类11聚类概述层级聚类l每个结点都是父类的一个类;l聚类可以表示成为树图的形式。非层
4、级聚类l类别结构简单;l类别之间的关系没有前者清晰;l是一个迭代过程:初始聚类分配样本数据12聚类概述聚类算法的分类:l按照聚类方法不同划分:“硬”聚类;l每个样本只能属于一个聚类集合;“软”聚类;l一个对象可以同时属于几个聚类集合,但是属于各个类别的概率不同;13聚类概述“硬”聚类l例:前面的单连通聚类树图所示的聚类。l层级聚类通常都是“硬”聚类;“软”聚类l评估单词和某个主题的相关程度时,它体现出来优势。l例:inning和score都是sport类的别中的单词,但是它们的概率分别是0.93和0.65,score属于government的概率为0.12,说明score还和其他类别有关。14
5、提纲聚类概述l用途l种类“软”聚类,”硬”聚类层级聚类l单连通、全连通l平均连通l自顶向下聚类非层级聚类lK平均算法lEM算法15层级聚类层级聚类算法分为“自底向上”和“自顶向下”两种:l“自底向上”:开始时每个对象都被作为一个类别,然后合并两个最相似的类别,直到只存在一个类别为止。l“自顶向下”:开始时全体对象作为一个类别,然后每次迭代分割内聚度最小的类别集合,直到每个类别中只有一个对象。在这两类算法中,都要用到相似度函数16层级聚类“自底向上”算法l(3、4)将每个对象初始化为一个类别;l(8)判断最相似的两个聚类;l(9)将选出的最相似的聚类进行合并。17层级聚类“自顶向下”l(4)所有
6、样本做为一个类别;l(7)选择最小内聚度的类别;l(8)分割最小内聚度的类别集合。18层级聚类三种相似度函数的大概计算原则l单连通聚类:两个集合间最相似样本之间的相似度;有好的局部一致性;19单连通聚类20层级聚类三种相似度函数的大概计算原则l单连通聚类:两个集合间最相似样本之间的相似度;有好的局部一致性;和最小生成树的方法很类似;21层级聚类三种相似度函数的大概计算原则l全连通聚类两个集合间最不相似样本之间的相似度;考虑到了全局因素,避免了单连通算法中“拉长”区域的产生;22单连通聚类23层级聚类三种相似度函数的大概计算原则l全连通聚类两个集合间最不相似样本之间的相似度;考虑到了全局因素,避
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 自然语言 处理 基础
限制150内