自然语言处理怎么最快入门？_21.docx

上传人：安***

文档编号：71086225

上传时间：2023-02-01

格式：DOCX

页数：6

大小：18.43KB

( 4.5 )

《自然语言处理怎么最快入门？_21.docx》由会员分享，可在线阅读，更多相关《自然语言处理怎么最快入门？_21.docx（6页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、自然语言处理怎么最快入门？在知乎上搜索相关问题有人推荐?数学之美?之前粗略看过一次这次想重新看一下并且做个读书笔记。下面是关于自然语言理解方面的一些读书笔记以及自己的考虑。一自然语言处理历史自然语言处理最初开展的20多年度里相关科学家都竭力通过电脑模拟人脑试图用这种方式来处理人类语言但是这种方式被证明是行不通的成功几乎为零。NLP开展的第二阶段是70年度代之后科学家们终于找到了基于数学模型以及统计的方法。第一阶段的时候学术界对人工智能以及自然语言理解的普遍认识是要让机器完成翻译或语音识别等等必须先让计算机理解自然语言就像人类一样去理解这些语言这显然是做不到的。即便在可预见的将来这也必定是一件不

2、太现实的事情。第二阶段比方机器在翻译的经过中并没有理解这句话的意思它只是做了一种统计上的归纳而已。机器照旧是机器。基于规那么的分析方法需要将现有的句法系统按照句子成分划分成一个一个单位而这会随着句子的复杂多样化句子的划分复杂度几何级上升并且没有上下文的帮助句子词义的多样性同样限制了规那么分析方法的开展。比方Thepenisinthebox.以及Theboxisinthepen.按照规那么来分析该句子根本不可能获得语义必须依靠常识来得到该句子的真正含义但是基于统计的方法可以依靠上下文对该语义做一个合理的预估。基于规那么的方法完全从该单独的句子着手根本不管上下文。但是这样也还是没有让基于统计的方法

3、快速开展起来主要原因在于基于统计的方法需要大量的训练数据这在当时来讲是达不到的。二.统计语言模型自然语言逐渐演变成为一种上下文相关的信息表达以及传递的方式计算机就用统计语言模型去表征自然语言这种上下文相关的特性。一个句子S(w1,w2,w3wn)由n个词组成我们要弄清该句子是否是一个符合实际的句子可以计算该句子在现实情况下的概率最最简单的想法是把人类所有句子统计一遍然后再计算这个句子的概率但是这显然是行不通的。一个可行的方法是把这个句子分成n个词对于中文来讲这就是中文分词研究的东西然后再计算这n个词按照该顺序组成这个句子的概率大小。可以表示如下这个概率计算的复杂度会随着n的增大指数上升。因此引

4、入齐次马尔科夫性假设即假设一个词的出现只与其前面一个词的出现有关而与更前面的词无关这样概率计算可以简化为如下这样的模型称为二元模型用更一般的表示方法为但是二元模型显然太过于简单草率所以有了高阶模型的出现n阶模型表示一个词的出现与其前面的n-1个词有关。表示为一般由于计算复杂度的问题大多数情况下用3阶模型谷歌的用到了4阶模型。接下来的问题是由于用来训练模型的语料库corpus太少而出现的零概率情况怎样处理这里有一个古德-图灵公式根本思路是当词语对出现次数大于某一阈值时利用条件概率计算出来的频率根据大数定理就当做概率因为只有大于某一阈值时我们才有充分理由相信大数定理的条件被知足当出现频数小于该阈值

5、但又大于零的频率那么相应的下调该频率值因为这个时候大数定律成立的条件是没有被知足的并且出现次数越少下调频率越多最后把这个下调的频率当做所求的概率最后对于零出现的情况那么将这些下调的总以及平均分配给零出现的次数以保证概率总以及为1。三.中文分词问题汉语以及英语有分割每个词的空格不一样汉语中所有的词都没有明显分界所以必须解决中文分词问题最简单的方法是查字典根本思想是首先有一个中文词语的字典库将一个句子从左扫描到末尾遇到字典里有的词之后就保存规那么是尽量找最长的词比方中国航天城中是一个单字词先保存继续往下扫描遇到国字中以及国可以组成一个更长的词因此最后保存中国这个词后面的航天城类似。查字典的处理方法

6、简单但不够准确。因为很多情况下并不是最长词的分词规那么就是最合适的。利用统计语言模型来处理中文分词的第一人是郭进博士根本思想是假设一个句子有很多种分词方法那么分别计算每种分词方法对应的该句子概率。即也就是讲利用每种分词方法都可以计算该句子的概率。然后取最大概率对应的分词方法。其本质上是一种极大似然估计。四.关于郭进博士分词方法的一些考虑(求指正)在这里我添加一些关于极大似然估计以及极大后验概率和频率学派以及贝叶斯学派这方面自己的考虑因为每次好不容易弄清楚了二者联络以及区别之后过段时间又混淆了。在这里极大似然估计以及极大后验概率都是如下的应用场景在给定观测数据X的情况下我们要求解产生该观测数据X

7、背后的参数并且我们求得的参数并不是非此即彼的也就是有一个概率分布来表征每一个可能的参数。当然一般情况下我们都取概率最大的那个参数即.极大似然估计以及极大后验概率的关键区别就在第三个等号这里这也是历史上著名的频率学派以及贝叶斯学派争论的地方焦点就在于是否是一个常数假设是常量的话那么第三个等号自然就成立了这样对于参数的估计就变成了极大似然估计(MaximumLikelihood)假设不为常量那么第三个等号就不能成立对于参数的估计只能停留在倒数第二个式子这里这便是极大后验概率MaximumAPosteriori。在频率学派的世界里参数是常量只是未知。而在贝叶斯学派的世界里参数那么不是常量。双方曾经对

8、这两种观点进展了剧烈的争论这是后话不表。回到我们这里的问题给定一个句子我们要求解其分词组合实际上给定的这个句子就是我们的观测值而分词组合便是待求解的参数而上文讲到的清华大学博士郭进所用到的方法便是先求得每个分词组合下对应的句子概率把最大概率对应的分词组合作为最终答案。很明显存在如下这个公式所以我把这个归为本质上的极大似然估计。中文分词并不是只能应用在中文领域而是根据特定场合同样可以应用在字母语言的领域比方英语词组的分割手写句子的识别因为手写英文句子的空格不那么明显等等。中文分词已经开展到相当高的阶段目前只是做一些完善以及添加新词的工作但是也存在一些工程实现方面的取舍问题主要有两点1.分词的一致性对于同样一个句子每个人的分词方法不一样不能讲哪种分词方法更优只能讲在详细应用场景里存在一种最优的分词方法2.分词的颗粒度问题以及一致性问题一样不同的应用场景合适用不同的颗粒度分词器在设计的时候一般会全面兼顾颗粒度小以及颗粒度大的情况在详细问题的时候再进展相应的取舍。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

14.8 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 自然语言处理怎么最快入门 _21

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：自然语言处理怎么最快入门？_21.docx
链接地址：https://www.deliwenku.com/p-71086225.html