(本科)05-文本表示ppt课件.pptx
《(本科)05-文本表示ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)05-文本表示ppt课件.pptx(44页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、课程主讲人:05-文本表示2第第5章章 文本表示文本表示教材:教材: 刘挺等刘挺等自然语言处理自然语言处理 高等教育出版社,高等教育出版社,2021自然语言处理自然语言处理目录目录o 词的表示n 分布式语义假设n 布朗聚类n 潜在语义分析n 神经词嵌入n 词表示评价o 短语和句子表示n 词袋模型n 基于神经网络的组合语义模型n 通用表示学习目标目录目录o 词的表示n 分布式语义假设n 布朗聚类n 潜在语义分析n 神经词嵌入n 词表示评价o 短语和句子表示n 词袋模型n 基于神经网络的组合语义模型n 通用表示学习目标One-Hot Encodingo分布式语义假设分布式语义假设o 假设:n Yo
2、u shall know a word by the company it keeps.n 词的含义可由其上下文的分布进行表示n 上下文相似的词语,其语义也往往相似o 方法介绍n 布朗聚类n 潜在语义分析LSAn 词神经嵌入布朗聚类布朗聚类o 利用上下文分布特征对词进行层次化聚类层次化聚类o 可以用近似霍夫曼树的方式对单词进行编码n 前缀相似度越高的词越接近n 可以使用不同长度的前缀获得不同粒度的语义表示010001011100000000100101010111011布朗聚类获得方式布朗聚类获得方式o布朗聚类获得方式布朗聚类获得方式o相邻词类互信息文本信息熵布朗聚类获得方式布朗聚类获得方式o
3、与词类聚类无关布朗聚类布朗聚类o潜在语义分析潜在语义分析 LSAo潜在语义分析潜在语义分析 LSAo潜在语义分析潜在语义分析 LSAo潜在语义分析潜在语义分析 LSAo神经词嵌入神经词嵌入oCBOW模型模型oCBOW模型模型oCBOW模型模型oSkip-gram 模型模型oSkip-gram 模型模型CBOW和和Skip-gram参数估计参数估计oCBOW和和Skip-gram参数估计参数估计o 实际操作中,输出层softmax函数维度过大,运行效率特别慢o 解决效率问题的两种近似方法:n 层次Softmax(Hierarchical Softmax)n 负采样方法(Negative Samp
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 05 文本 表示 ppt 课件
限制150内