自然语言处理怎么最快入门?_21.docx
《自然语言处理怎么最快入门?_21.docx》由会员分享,可在线阅读,更多相关《自然语言处理怎么最快入门?_21.docx(6页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、自然语言处理怎么最快入门?在知乎上搜索相关问题有人推荐?数学之美?之前粗略看过一次这次想重新看一下并且做个读书笔记。下面是关于自然语言理解方面的一些读书笔记以及自己的考虑。一自然语言处理历史自然语言处理最初开展的20多年度里相关科学家都竭力通过电脑模拟人脑试图用这种方式来处理人类语言但是这种方式被证明是行不通的成功几乎为零。NLP开展的第二阶段是70年度代之后科学家们终于找到了基于数学模型以及统计的方法。第一阶段的时候学术界对人工智能以及自然语言理解的普遍认识是要让机器完成翻译或语音识别等等必须先让计算机理解自然语言就像人类一样去理解这些语言这显然是做不到的。即便在可预见的将来这也必定是一件不
2、太现实的事情。第二阶段比方机器在翻译的经过中并没有理解这句话的意思它只是做了一种统计上的归纳而已。机器照旧是机器。基于规那么的分析方法需要将现有的句法系统按照句子成分划分成一个一个单位而这会随着句子的复杂多样化句子的划分复杂度几何级上升并且没有上下文的帮助句子词义的多样性同样限制了规那么分析方法的开展。比方Thepenisinthebox.以及Theboxisinthepen.按照规那么来分析该句子根本不可能获得语义必须依靠常识来得到该句子的真正含义但是基于统计的方法可以依靠上下文对该语义做一个合理的预估。基于规那么的方法完全从该单独的句子着手根本不管上下文。但是这样也还是没有让基于统计的方法
3、快速开展起来主要原因在于基于统计的方法需要大量的训练数据这在当时来讲是达不到的。二.统计语言模型自然语言逐渐演变成为一种上下文相关的信息表达以及传递的方式计算机就用统计语言模型去表征自然语言这种上下文相关的特性。一个句子S(w1,w2,w3wn)由n个词组成我们要弄清该句子是否是一个符合实际的句子可以计算该句子在现实情况下的概率最最简单的想法是把人类所有句子统计一遍然后再计算这个句子的概率但是这显然是行不通的。一个可行的方法是把这个句子分成n个词对于中文来讲这就是中文分词研究的东西然后再计算这n个词按照该顺序组成这个句子的概率大小。可以表示如下这个概率计算的复杂度会随着n的增大指数上升。因此引
4、入齐次马尔科夫性假设即假设一个词的出现只与其前面一个词的出现有关而与更前面的词无关这样概率计算可以简化为如下这样的模型称为二元模型用更一般的表示方法为但是二元模型显然太过于简单草率所以有了高阶模型的出现n阶模型表示一个词的出现与其前面的n-1个词有关。表示为一般由于计算复杂度的问题大多数情况下用3阶模型谷歌的用到了4阶模型。接下来的问题是由于用来训练模型的语料库corpus太少而出现的零概率情况怎样处理这里有一个古德-图灵公式根本思路是当词语对出现次数大于某一阈值时利用条件概率计算出来的频率根据大数定理就当做概率因为只有大于某一阈值时我们才有充分理由相信大数定理的条件被知足当出现频数小于该阈值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 怎么 最快 入门 _21
限制150内