HanLP《自然语言处理入门》笔记.docx

上传人：安***

文档编号：73268051

上传时间：2023-02-17

格式：DOCX

页数：6

大小：18.12KB

( 4.5 )

《HanLP《自然语言处理入门》笔记.docx》由会员分享，可在线阅读，更多相关《HanLP《自然语言处理入门》笔记.docx（6页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、HanLP自然语言处理入门笔记f(x) wx b 其中 w 以及 b 是函数的参数而 x 是函数的自变量。不过模型并不包括详细的自变量x 因为自变量是由用户输入的。自变量 x 是一个特征向量用来表示一个对象的特征。特征特征指的是事物的特点转化的数值。怎样挑选特征怎样设计特征模板这称作特征工程。特征越多参数就越多参数越多模型就越复杂。数据集样本的集合在机器学习领域称作数据集在自然语言处理领域称作语料库。监视学习假如数据集附带标准答案 y 那么此时的学习算法称作监视学习。学习一遍误差还不够小需要反复学习、反复调整。此时的算法是一种迭代式的算法每一遍学习称作一次迭代。

2、这种在有标签的数据集上迭代学习的经过称作训练。无监视学习假如我们只给机器做题却不告诉它参考答案机器仍然可以学到知识吗可以此时的学习称作无监视学习而不含标准答案的数据集被称作无标注的数据集。无监视学习一般用于聚类以及降维降维指的是将样本点从高维空间变换成低维空间的经过。其他类型的机器学习算法半监视学习假如我们训练多个模型然后对同一个实例执行预测会得到多个结果。假如这些结果多数一致那么可以将该实例以及结果放到一起作为新的训练样本用力啊扩大训练集。这样的算法被称为半监视学习。强化学习现实世界中的事物之间往往有很长的因果链我们要正确地执行一系列彼此关联的决策才能得到

3、最终的成果。这类问题往往需要一边预测一边根据环境的反应规划下次决策。这类算法被称为强化学习。 1.5 语料库中文分词语料库中文分词语料库指的是由人工正确切分的句子集合。以著名的1998年度?人民日报?语料库为例先有通货膨胀干扰后有通货紧缩叫板。词性标注语料库它指的是切分并为每个词语制定一个词性的语料。仍然以?人民日报?语料库为例迈向/v 充满/v 祈望/n 的/u 新/a 世纪/n -/w 一九九八年度/t 新年度/t 讲话/n 这里每个单词后面用斜杠隔开的就是词性标签。命名实体识别语料库这种语料库人工标注了文本内部制关心的实体名词和实体类别。比方?人民日报

4、?语料库中-共含有人名、地名以及机构名3种命名实体: 萨哈夫/nr 讲/v ,/w 伊拉克/ns 将/d 同/p 结合国/nt 销毁/v 伊拉克/ns 大规模/b 杀伤性/n 武器/n 十分/a 委员会/n /nt 继续/v 保持/v 合作/v 。/w 这个句子中的加粗词语分别是人名、地名以及机构名。中括号括起来的是复合词我们可以观察到:有时候机构名以及地名复合起来会构成更长的机构名这种构词法上的嵌套现象增加了命名实体识别的难度。句法分析语料库汉语中常用的句法分析语料库有CTB(Chinese Treebank 中文树库) 其中一个句子可视化后如下列图所示中文单词上面的英文标签标示词

5、性而箭头表示有语法联络的两个单词详细是何种联络由箭头上的标签标示。文本分类语料库它指的是人工标注了所属分类的文章构成的语料库。语料库的建立语料库建立指的是构建一份语料库的经过分为标准制定、人员培训与人工标注这三个阶段。针对不同类型的任务人们开发出许多标注软件其中比拟成熟的一款是brat 它支持词性标注、命名实体识别以及句法分析等任务。 1.6 开源工具主流NLP工具比拟另外也研究过其他开源工程的原理借鉴了其中优秀的设计。但毕竟还是自己写的代码讲得最清楚所以综合以上各种考虑最后选取了HanLP作为本书的实现。 Python接口 HanLP 的 Python 接口由

6、pyhanlp 包提供其安装只需一句命令 $ pip install pyhanlp 1.7 总结本章给出了人工智能、机器学习与自然语言处理的宏观缩略图与开展时间线。机器学习是人工智能的子集而自然语言处理那么是人工智能与语言学、计算机科学的交集。这个交集固然小它的难度却很大。为了实现理解自然语言这个宏伟目的人们尝试了规那么系统并最终开展到基于大规模语料库的统计学习系统。在接下来的章节中就让我们按照这种由易到难的开展规律去解决第一个NLP问题一中文分词。我们将先从规那么系统人手介绍一些快而不准的算法然后逐步进化到更加准确的统计模型。 1.8 GitHub工程 HanLP何晗?自然语言处理入门?笔记工程持续更新中目录章节第 3 章二元语法与中文分词第 4 章隐马尔可夫模型与序列标注第 5 章感悟机分类与序列标注第 6 章条件随机场与序列标注第 7 章词性标注第 8 章命名实体识别第 9 章信息抽取第 10 章文本聚类第 11 章文本分类第 12 章依存句法分析第 13 章深度学习与自然语言处理

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

14.8 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 自然语言处理入门 HanLP 自然语言处理入门笔记

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：HanLP《自然语言处理入门》笔记.docx
链接地址：https://www.deliwenku.com/p-73268051.html