文本表示.ppt
《文本表示.ppt》由会员分享,可在线阅读,更多相关《文本表示.ppt(101页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、1 自然语言理解概述自然语言理解概述1.1 问题的提出问题的提出n 自然语言是指人类日常使用的语言,如自然语言是指人类日常使用的语言,如汉语、英语、法语,德语,等等汉语、英语、法语,德语,等等n 语言是思维的载体,是人类交流思想、语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具表达情感最自然、最直接、最方便的工具n人类历史上以语言文字形式记载和流传人类历史上以语言文字形式记载和流传的知识占知识总量的的知识占知识总量的80以上以上1.1 问题的提出问题的提出无处不在的网络、无处不在的通讯和无处不在的网络、无处不在的通讯和无处不在的网络、无处不在的通讯和无处不在的网络、无处不
2、在的通讯和堆积如山的文档,构成了当今社会信息爆堆积如山的文档,构成了当今社会信息爆堆积如山的文档,构成了当今社会信息爆堆积如山的文档,构成了当今社会信息爆炸的基本特征。当现代化的信息传播手段炸的基本特征。当现代化的信息传播手段炸的基本特征。当现代化的信息传播手段炸的基本特征。当现代化的信息传播手段给人们的生活和工作带来极大便利的同给人们的生活和工作带来极大便利的同给人们的生活和工作带来极大便利的同给人们的生活和工作带来极大便利的同时,也使人们面临许多难以克服的困难和时,也使人们面临许多难以克服的困难和时,也使人们面临许多难以克服的困难和时,也使人们面临许多难以克服的困难和障碍。有关专家指出,语
3、言障碍是障碍。有关专家指出,语言障碍是障碍。有关专家指出,语言障碍是障碍。有关专家指出,语言障碍是2121世纪世纪世纪世纪社会全球化所面临的主要困难之一。社会全球化所面临的主要困难之一。社会全球化所面临的主要困难之一。社会全球化所面临的主要困难之一。1.1 问题的提出问题的提出n如何让计算机实现自动的或人机互助的如何让计算机实现自动的或人机互助的语言处理功能?语言处理功能?n如何让计算机实现海量语言信息的自动如何让计算机实现海量语言信息的自动处理、知识挖掘和有效利用?处理、知识挖掘和有效利用?自然语言理解自然语言理解自然语言理解自然语言理解Natural Language Understand
4、ing,NLUNatural Language Understanding,NLU1.2 基本概念基本概念pp定义定义1-1:自然语言理解自然语言理解(Natural Language Understanding,NLU)自然语言理解也称自然语言处理自然语言理解也称自然语言处理(Natural Language Processing,NLP)。自然语言处理就是利用计算机为工具对人自然语言处理就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。息进行各种类型处理和加工的技术。冯志伟冯志伟自然语言的计算机处理自然语
5、言的计算机处理1.2 基本概念基本概念 自然语言处理可以定义为研究在人与人交际中自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(自然语言处理要研制表示语言能力(linguistic competence)和语言应用()和语言应用(linguistic performance)的模型,建立计算框架来实现这)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系的语言模型,根据这样的
6、语言模型设计各种实用系统,并探讨这些实用系统的评测技术。统,并探讨这些实用系统的评测技术。马纳瑞斯(马纳瑞斯(Bill Manaris)在从人机交)在从人机交互的角度看自然语言处理互的角度看自然语言处理1.2 基本概念基本概念定义定义1-2:计算语言学计算语言学(Computational Linguistics)计算语言学是利用电子数字计算机进行计算语言学是利用电子数字计算机进行的语言分析。虽然许多其他类型的语言分析的语言分析。虽然许多其他类型的语言分析也可以运用计算机,计算分析最常用于处理也可以运用计算机,计算分析最常用于处理基本的语言数据例如建立语音、词、词元基本的语言数据例如建立语音、
7、词、词元素的搭配以及统计它们的频率。素的搭配以及统计它们的频率。大不列颠百科全书大不列颠百科全书1.2 基本概念基本概念 计算语言学是语言学的一个研究分支,计算语言学是语言学的一个研究分支,用计算技术和概念来阐述语言学和语音学问用计算技术和概念来阐述语言学和语音学问题。已开发的领域包括题。已开发的领域包括自然语言处理自然语言处理,言语,言语识别,自动翻译,语法的检测,以及许多需识别,自动翻译,语法的检测,以及许多需要统计分析要统计分析的的领域。领域。现代语言学词典现代语言学词典戴维戴维.克里斯特克里斯特尔,尔,19971.2 基本概念基本概念 近几年来,自然语言处理技术迅速发展近几年来,自然语
8、言处理技术迅速发展成为一门相对独立的学科,倍受关注,而且成为一门相对独立的学科,倍受关注,而且该技术不断与语音技术相互渗透和结合形成该技术不断与语音技术相互渗透和结合形成新的研究分支,因此,很多人在谈到新的研究分支,因此,很多人在谈到“计算计算语言学语言学”、“自然语言处理自然语言处理”或或“自然语言自然语言理解理解”这些术语时,往往默认为同一个概念。这些术语时,往往默认为同一个概念。甚至有专著甚至有专著刘颖,刘颖,2002干脆直接解释干脆直接解释为为:计算语言学也称自然语言处理或自然语言理计算语言学也称自然语言处理或自然语言理解。解。1.2 基本概念基本概念nNLP 技术与语言的相关性?技术
9、与语言的相关性?汉语汉语 英语英语 西班牙语西班牙语 阿拉伯语阿拉伯语 印度语印度语 1.2 基本概念基本概念 4545个国家的官方个国家的官方个国家的官方个国家的官方语言是英语,世界语言是英语,世界语言是英语,世界语言是英语,世界1/31/3的人讲英语,的人讲英语,的人讲英语,的人讲英语,75%75%的电视节目是英的电视节目是英的电视节目是英的电视节目是英语,语,语,语,80%80%以上的科以上的科以上的科以上的科技信息用英文表达。技信息用英文表达。技信息用英文表达。技信息用英文表达。英语作为第一交英语作为第一交英语作为第一交英语作为第一交流语言的说话人有流语言的说话人有流语言的说话人有流语
10、言的说话人有3.83.8亿;英语为第二交流语亿;英语为第二交流语亿;英语为第二交流语亿;英语为第二交流语言的说话人有言的说话人有言的说话人有言的说话人有3.8 3.8 亿;亿;亿;亿;学习英语的人有学习英语的人有学习英语的人有学习英语的人有7.57.5亿。亿。亿。亿。100100多个国家已有约多个国家已有约多个国家已有约多个国家已有约3000 3000 万外国人万外国人万外国人万外国人学习汉语,国际社会预言学习汉语,国际社会预言学习汉语,国际社会预言学习汉语,国际社会预言,21 21世纪汉语世纪汉语世纪汉语世纪汉语将成为新的强势语言,将成为超过英语、将成为新的强势语言,将成为超过英语、将成为新
11、的强势语言,将成为超过英语、将成为新的强势语言,将成为超过英语、世界上使用人数最多的语言。世界上使用人数最多的语言。世界上使用人数最多的语言。世界上使用人数最多的语言。1.2 基本概念基本概念 汉语已经不再只是中国人自己使用汉语已经不再只是中国人自己使用汉语已经不再只是中国人自己使用汉语已经不再只是中国人自己使用和关注的语言,不管外国人喜欢她还是和关注的语言,不管外国人喜欢她还是和关注的语言,不管外国人喜欢她还是和关注的语言,不管外国人喜欢她还是讨厌她讨厌她讨厌她讨厌她,但没有人敢藐视她!针对汉语但没有人敢藐视她!针对汉语但没有人敢藐视她!针对汉语但没有人敢藐视她!针对汉语的处理技术早已成为国
12、际学术界和企业的处理技术早已成为国际学术界和企业的处理技术早已成为国际学术界和企业的处理技术早已成为国际学术界和企业界共同关注的问题界共同关注的问题界共同关注的问题界共同关注的问题,因此,基于汉语的,因此,基于汉语的,因此,基于汉语的,因此,基于汉语的自然语言理解已成为我们研究的重点。自然语言理解已成为我们研究的重点。自然语言理解已成为我们研究的重点。自然语言理解已成为我们研究的重点。1.2 基本概念基本概念定义定义1-3:中文信息处理中文信息处理(Chinese Information Processing)针对汉语的自然语言处理技术。由于其语针对汉语的自然语言处理技术。由于其语言本身的多变
13、、灵活,所以有很多难以处理言本身的多变、灵活,所以有很多难以处理的问题。的问题。1.2 基本概念基本概念1.2 基本概念基本概念1.2 基本概念基本概念1.3 基本问题基本问题1.3 基本问题基本问题1.3 基本问题基本问题1.3 基本问题基本问题1.3 基本问题基本问题2 文本表示方法介绍文本表示方法介绍n文本表示是指将实际的文本内容变成机器内部文本表示是指将实际的文本内容变成机器内部表示结构。表示结构。n可以用字、词、短语、可以用字、词、短语、n-Gram等形成向量或等形成向量或树等结构。树等结构。n文本表示包括文本表示包括2个问题:表示和计算,表示特个问题:表示和计算,表示特指特征的提取
14、,计算指权重的定义和语义相似指特征的提取,计算指权重的定义和语义相似度的定义。度的定义。n该部分以信息检索为背景介绍文本表示。该部分以信息检索为背景介绍文本表示。文本表示意义文本表示意义n从所使用的数学方法上分:从所使用的数学方法上分:n基于集合论的模型基于集合论的模型(Set Theoretic models)n 布尔模型布尔模型(1)n 基于模糊集的模型基于模糊集的模型(3)n 扩展布尔模型扩展布尔模型(4)n基于代数论的模型基于代数论的模型(Algebraic models)n 向量空间模型向量空间模型(2)n 潜在语义索引模型潜在语义索引模型(5)n基于概率统计的模型基于概率统计的模型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 表示
限制150内