05第五章 n-gram语言模型.ppt
《05第五章 n-gram语言模型.ppt》由会员分享,可在线阅读,更多相关《05第五章 n-gram语言模型.ppt(78页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、关毅研究生专业必修课自然语言处理,2007年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室第五章 n-gram语言模型、n-gram 语言模型附录1、语言模型构造实例附录2、最大熵模型的理论基础研究生专业必修课自然语言处理,2007年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室本章
2、主要内容噪声信道模型噪声信道模型目标:通过有噪声的输出信号试图恢复输入信号研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室噪声信道模型的应用噪声信道模型是一种普适性的模型,通过修改噪声信道的定义,可以将如下应用纳入到这一模型的框架之中研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Right
3、s Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室噪声信道模型的应用-语音识别一个声学信号对应于一个语句,一个语音识别器需找到其对应的可能性最大的语言文本根据贝叶斯公式 研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室噪声信道模型的应用-语音识别信息源对应于以概率 生成语句文本
4、,噪声信道对应于以概率分布 将语句文本转换成声音信号。语音识别的目的就是由通过噪声信道而输出的声音信号恢复其原始的语句文本。研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室噪声信道模型的其他应用信源以概率 生成语句文本,信道为 ,语音/图像/翻译文本/字音转换模型手写体汉字识别 文本书写(或者打印、扫描)图像文本校错文本输入编辑带有错误的文本机器翻译目标语言的文本翻译
5、源语言文本音字转换文本字音转换汉字(拼音)编码研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室噪声信道模型的其他应用信源以概率 生成词性标注序列,信道 为词性标注序列转为词序列的转换模型词性标注词性标注序列词性词串转换词串研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Rese
6、rved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室香农游戏香农游戏(Shannon Game)Claude E.Shannon.“Prediction and Entropy of Printed English”,Bell System Technical Journal 30:50-64.1951.给定前n-1个词(或者字母),预测下一个词(字母)从训练语料库中确定不同词序列概率研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Righ
7、ts Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室语言模型语言模型P(T):语言模型,如何计算P(T)?根据链规则问题:1、参数空间过大,无法实用!2、数据稀疏问题研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室基本思想“马尔科夫假设”下一个词的出现仅仅依赖于它前面的一 个词
8、或者几个词假设下一个词的出现依赖于它前面的一个词 :bigram假设下一下一个词的出现依赖于它前面的两个词 :trigram研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室N-gram语言模型最大相似度估计(Maximum Likelihood Estimate)“n-gram”=n个词构成的序列个词构成的序列unigrambigramtrigramfour-gram
9、(quadgram 4-gram)研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室N-gram语言模型N元文法对下一个单词的条件概率逼近的通用等式是:构造(训练)N-gram语言模型:在训练语料库中统计获得n-gram的频度信息研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights R
10、eserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室举例I3437want1215to3256eat938Chinese213food1506lunch459研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室假设语料库总词数为13,748词举例IwanttoeatChinesefoodl
11、unchI81087013000want307860686to30108603012eat002019252Chinese200001201food190170000lunch4000010研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室举例P(I want to eat Chinese food)=P(I)*P(want|I)*P(to|want)*P(eat|to
12、)*P(Chinese|eat)*P(food|Chinese)=0.25*1087/3437*786/1215*860/3256*19/938*120/213=0.000154171P(I want to eat Chinese food lunch)=?研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室N的选择:可靠性 vs.辨别力“我正在 _”讲课?图书馆?听课?
13、学习?借书?“我正在 图书馆 _”学习?借书?研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室可靠性 vs.辨别力更大的 n:对下一个词出现的约束性信息更多,更大的辨别力更小的n:在训练语料库中出现的次数更多,更可靠的统计结果,更高的可靠性 研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All R
14、ights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室N的选择词表中词的个数|V|=20,000 词研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室n所有可能的所有可能的n-gram的个数的个数2(bigrams)400,000,0003(trigrams)8,000,00
15、0,000,0004(4-grams)1.6 x 1017数据稀疏问题假设我们使用trigram模型如果某个那么P(S)=0数据稀疏问题必须保证 从而使 研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室假设某语料库词汇分布如下研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Re
16、served哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室最大相似度估计研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室期望概率分布研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨
17、工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室期望概率分布研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室平滑(Smoothing)降低已出现的n-gram条件概率分布,以使未出现n-gram条件概率分布非0又可称为“折扣方法”(Discounting methods)(确认)“Validation
18、”特指使用两个不同的训练语料库的平滑方法研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室拉普拉斯定律LaPlaces Law(加一平滑法adding one)研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机
19、学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室拉普拉斯定律(adding one)研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室拉普拉斯定律研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计
20、算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室Lidstone 定律(Lidstones Law)研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室P=n-gram w1w2wn的概率的概率C=n-gram w1w2wn在训练语料库中的个数在训练语料库中的个数N=训练语料库中的训练语料库中的 n-grams 总数总数B=所有可能的所有可能的n-g
21、ram个数个数 =一个小的整数一个小的整数M.L.E最大相似度估计最大相似度估计:=0LaPlaces Law拉普拉斯定律拉普拉斯定律:=1Jeffreys-Perks 定律定律:=Jeffreys-Perks Law研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室Lidstones Law存在的问题的确定.对所有未出现的n-gram都给与相同的概率与最大相似度估计成
22、线性关系研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室Good-Turing估计如果 C(w1,.,wn)=r 0,PGT(w1,.,wn)=r*/N 此处:r*=(r+1)S(r+1)/S(r)(r+1)N(r+1)/N(r)这里S(r)是Nr的期望平滑估计.If C(w1,.,wn)=0,PGT(w1,.,wn)N1/(N0N)研究生专业必修课研究生专业必修课自
23、然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室Good-Turing估计示例建立频度-n-gram(本例为bigram)个数表(词表中词数14585,语料库中出现的各不相同的bigram总数199252个,bigram总数为617091个)研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨
24、工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室113874122541331053145997535656248671754813429110610896Good-Turing估计示例对于未出现的bigramPGT(w1,.,wn)N1/(N0N)=138741/(14585*14585-199252)*617091)=1.058*10E-9研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技
25、术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验室Good-Turing估计示例假设语料库中,某bigram 出现了1次,r*=(r+1)S(r+1)/S(r)(r+1)N(r+1)/N(r)=2*25413/138741=0.3663P=0.3663/617091=5.94E-7研究生专业必修课研究生专业必修课自然语言处理自然语言处理,2007年秋季年秋季Copyrights 2007.HIT.All Rights Reserved哈尔滨工业大学计算机学院语言技术中心哈尔滨工业大学计算机学院语言技术中心哈工大哈工大-雅虎中国联合实验室雅虎中国联合实验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 05第五章 n-gram语言模型 05 第五 gram 语言 模型
限制150内