HanLP《自然语言处理入门》笔记.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《HanLP《自然语言处理入门》笔记.docx》由会员分享,可在线阅读,更多相关《HanLP《自然语言处理入门》笔记.docx(6页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、HanLP自然语言处理入门笔记f(x) wx b 其中 w 以及 b 是函数的参数 而 x 是函数的自变量。不过模型并不包括详细的自变量x 因为自变量是由用户输入的。自变量 x 是一个特征向量 用来表示一个对象的特征。 特征 特征指的是事物的特点转化的数值。怎样挑选特征 怎样设计特征模板 这称作特征工程。特征越多 参数就越多 参数越多 模型就越复杂。 数据集 样本的集合在机器学习领域称作数据集 在自然语言处理领域称作语料库。 监视学习 假如数据集附带标准答案 y 那么此时的学习算法称作监视学习。学习一遍误差还不够小 需要反复学习、反复调整。此时的算法是一种迭代式的算法 每一遍学习称作一次迭代。
2、这种在有标签的数据集上迭代学习的经过称作训练。 无监视学习 假如我们只给机器做题 却不告诉它参考答案 机器仍然可以学到知识吗 可以 此时的学习称作无监视学习 而不含标准答案的数据集被称作无标注的数据集。无监视学习一般用于聚类以及降维 降维指的是将样本点从高维空间变换成低维空间的经过。 其他类型的机器学习算法 半监视学习 假如我们训练多个模型 然后对同一个实例执行预测 会得到多个结果。假如这些结果多数一致 那么可以将该实例以及结果放到一起作为新的训练样本 用力啊扩大训练集。这样的算法被称为半监视学习。强化学习 现实世界中的事物之间往往有很长的因果链 我们要正确地执行一系列彼此关联的决策 才能得到
3、最终的成果。这类问题往往需要一边预测 一边根据环境的反应规划下次决策。这类算法被称为强化学习。 1.5 语料库 中文分词语料库 中文分词语料库指的是 由人工正确切分的句子集合。以著名的1998年度?人民日报?语料库为例 先 有 通货膨胀 干扰 后 有 通货 紧缩 叫板。 词性标注语料库 它指的是切分并为每个词语制定一个词性的语料。仍然以?人民日报?语料库为例 迈向/v 充满/v 祈望/n 的/u 新/a 世纪/n -/w 一九九八年度/t 新年度/t 讲话/n 这里每个单词后面用斜杠隔开的就是词性标签。 命名实体识别语料库 这种语料库人工标注了文本内部制关心的实体名词和实体类别。比方?人民日报
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理入门 HanLP 自然语言 处理 入门 笔记
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内