欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    (本科)05-文本表示ppt课件.pptx

    • 资源ID:15303799       资源大小:2.62MB        全文页数:44页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    (本科)05-文本表示ppt课件.pptx

    课程主讲人:05-文本表示2第第5章章 文本表示文本表示教材:教材: 刘挺等刘挺等自然语言处理自然语言处理 高等教育出版社,高等教育出版社,2021自然语言处理自然语言处理目录目录o 词的表示n 分布式语义假设n 布朗聚类n 潜在语义分析n 神经词嵌入n 词表示评价o 短语和句子表示n 词袋模型n 基于神经网络的组合语义模型n 通用表示学习目标目录目录o 词的表示n 分布式语义假设n 布朗聚类n 潜在语义分析n 神经词嵌入n 词表示评价o 短语和句子表示n 词袋模型n 基于神经网络的组合语义模型n 通用表示学习目标One-Hot Encodingo分布式语义假设分布式语义假设o 假设:n You shall know a word by the company it keeps.n 词的含义可由其上下文的分布进行表示n 上下文相似的词语,其语义也往往相似o 方法介绍n 布朗聚类n 潜在语义分析LSAn 词神经嵌入布朗聚类布朗聚类o 利用上下文分布特征对词进行层次化聚类层次化聚类o 可以用近似霍夫曼树的方式对单词进行编码n 前缀相似度越高的词越接近n 可以使用不同长度的前缀获得不同粒度的语义表示010001011100000000100101010111011布朗聚类获得方式布朗聚类获得方式o布朗聚类获得方式布朗聚类获得方式o相邻词类互信息文本信息熵布朗聚类获得方式布朗聚类获得方式o与词类聚类无关布朗聚类布朗聚类o潜在语义分析潜在语义分析 LSAo潜在语义分析潜在语义分析 LSAo潜在语义分析潜在语义分析 LSAo潜在语义分析潜在语义分析 LSAo神经词嵌入神经词嵌入oCBOW模型模型oCBOW模型模型oCBOW模型模型oSkip-gram 模型模型oSkip-gram 模型模型CBOW和和Skip-gram参数估计参数估计oCBOW和和Skip-gram参数估计参数估计o 实际操作中,输出层softmax函数维度过大,运行效率特别慢o 解决效率问题的两种近似方法:n 层次Softmax(Hierarchical Softmax)n 负采样方法(Negative Sampling)层次层次Softmaxo 将输出层用二叉树组合起来n 二叉树的叶子节点代表每一个单词n 对目标单词的预测分解为从根结点到叶子节点的二元路径决策层次层次Softmax o层次层次Softmax o层次层次Softmax o基于负采样的词向量学习基于负采样的词向量学习o基于负采样的词向量学习基于负采样的词向量学习o 举例:n 文本: I want to study NLP.o 窗口为2n 正例: o (want, study)n 负例:o (want, abandon)o (want, model)o 词表示评价词表示评价o 词义相关性:n 人工标注一些词对的相似度。相似度。n 利用词向量余弦相似度值余弦相似度值与人工标注相似度的相关相关系数系数作为词义相关性的评价标准:词表示评价词表示评价o目录目录o 词的表示n 分布式语义假设n 布朗聚类n 潜在语义分析n 神经词嵌入n 词表示评价o 短语和句子表示n 词袋模型n 基于神经网络的组合语义模型n 通用表示学习目标短语和句子表示短语和句子表示o 通过词表示的组合计算,可以得到短语句子的向量表示o 短语句子表示可以应用在文本分类等下游任务中词袋模型词袋模型o递归神经网络递归神经网络o大写字母代表词性,小写字母代表节点表示循环神经网络循环神经网络o卷积神经网络卷积神经网络o 将每个词分布式表示向量进行拼接得到一副二维“图像”,在图像上进行卷积池化操作获得句子向量表示。o 滤波器高度等于词向量维度一保证以词为单位以词为单位进行卷积。滤波器高度=词向量维度=4注意力模型注意力模型o 循环神经网络和卷积神经网络都采用池化操作获得句子表示,这种做法丢失了不同词的重要性分布重要性分布信息。o 利用注意力(attention)机制,对不同词的重要程度加以评估,能够聚焦到更重要的信息。自注意力模型自注意力模型o通用表示学习目标通用表示学习目标o 获得通用的句子表示需要:n 编码器(模型)n 规模性大、通用性强的指导信号指导信号(任务)o 常见的通用表示学习任务:n 双语翻译n 语言模型n 单语言句间关系双语翻译双语翻译o 将神经翻译系统的编码器作为句子表示。作为表示语言模型语言模型o 利用左右侧上下文预测掩盖的单词训练语言表示。我我在在周日周日看了看了一一mask 书书Language Model本单语言句间关系单语言句间关系o Skip-thought模型:n 通过一个句子的表示重构其左右的句子本章总结本章总结o 词的表示:n 根据分布式语义表示,介绍了三种基于上下文信息的词表示获取方法n 了解了词表示的评价方式o 短语和句子表示:n 了解了句子表示的模型架构n 了解了获得通用句子表示的训练任务

    注意事项

    本文((本科)05-文本表示ppt课件.pptx)为本站会员(春哥&#****71;)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开