自然语言处理NaturalLanguageProcessing(NLP).ppt
《自然语言处理NaturalLanguageProcessing(NLP).ppt》由会员分享,可在线阅读,更多相关《自然语言处理NaturalLanguageProcessing(NLP).ppt(115页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、自然语言处理Natural Language Processing(NLP),陈家骏,戴新宇,主要内容(1),自然语言处理概述什么是自然语言处理自然语言处理技术的应用自然语言处理的基本策略和实现方法自然语言处理的难点自然语言处理所涉及的学科(http:/ (IBM Model等).(基于神经网络的深度学习方法),主要内容(3),所需的前导知识,编译技术概率与统计,参考书籍,宗成庆,统计自然语言处理,清华大学出版社,2008刘群等译,自然语言理解(第二版),电子工业出版社,2005苑春法等译,统计自然语言处理基础,电子工业出版社,2005冯志伟等译,自然语言处理综论,电子工业出版社,2005黄昌
2、宁等,语料库语言学,商务印书馆,2002冯志伟,计算语言学基础,商务印书馆,2001余士文,计算语言学概论,商务印书馆,2003姚天顺,自然语言理解一种让机器懂得人类语言的研究(第2版),清华大学出版社,2002赵铁军等,机器翻译原理,哈尔滨工业大学出版社,2000宗成庆等译,统计机器翻译,电子工业出版社,2012Peter F. Brown, et al., A Statistical Approach to MT, Computational Linguistics, 1990,16(2),课程考核,Projects提交报告(说明基本做法)和源程序及可运行的程序期末笔试,自然语言处理概述,
3、什么是自然语言处理,充分利用信息将会给人们带来巨大的收益,而大量的信息以自然语言(英语、汉语等)形式存在。如何有效地获取和利用以自然语言形式出现的信息?自然语言处理(Natural Language Processing,简称NLP)是指用计算机对语言信息进行处理的方法和技术。与NLP相近的两个研究领域:自然语言理解(Natural Language Understanding, NLU):强调对语言含义和意图的深层次解释计算语言学(Computational Linguistics, CL):强调可计算的语言理论,NLP技术的应用,机器翻译自动摘要文本分类与信息过滤信息检索信息抽取与文本挖掘
4、情感分析自动问答.,机器翻译(Machine Translation),机器翻译(Machine Translation,简称MT)是指利用计算机实现自然语言(英语、汉语等)之间的自动翻译。是最早的计算机应用之一分为:文本机器翻译和语音机器翻译机器辅助翻译(Machine Aided Translation或Computer Aided Translation,简称MAT或CAT)翻译记忆体(Translation Memory,简称TM)双语对照的文本编辑.,自动摘要(Text Summarization),利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简洁、连贯的短文。指标
5、:压缩比、.,文本分类(Text Classification),将一篇文档归于预先给定的一个类别集合中的某一类或某几类。可用于图书馆的图书分类信息过滤.,信息检索(Information Retrieval,IR),主题相关的文本获取。基于关键词,从某文档集合中检索出相关的文档。关键技术:倒排索引、.google、百度、.,信息抽取(Information Extraction,IE),主题相关的信息获取。基于某个主题模板,从非结构化或半结构化的自然语言文本中提取出相关的结构化信息。对机器翻译、自动问答、数据挖掘(文本挖掘)等提供支持。,新华社北京月日电(记者李术峰): 中国农工民主党第十二
6、届中央常务委员会第一次会议今天在北京召开。会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了中国农工民主党中央年工作要点(草案),并任命了中央副秘书长。农工民主党中央主席蒋正华主持了会议,他说,农工民主党有多名党员作为代表和委员参加了今年的“两会”,各位党员要认真履行代表和委员的职责,开好会,在年的工作中认真贯彻“两会”精神,加强农工民主党的自身建设,推动事业进一步发展,为建设有中国特色社会主义事业作出新的贡献。会前,农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。,信息抽取实例:会议报道(人民日报1998-03-09),信息抽取的结果,情感分
7、析(Sentiment Analysis或 Opinion Analysis ),分析文章(评论)对某个对象(社会热点事件、产品或者服务)的态度(正面还是负面)。政府舆情分析:热点事件发现、预警企业市场决策:产品意见调查、产品推荐消费者购买决策.,自动问答(Question Answering,QA),针对用户提出的问题,给出具体的答案。Apple的Siri、IBM的Watson机器人、百度的“知道”、,自然语言处理的主要任务(工作),语言分析:分析语言表达的结构和含义词法分析:形态还原、词性标注、命名实体识别、分词(汉语、日语等)等句法分析:组块分析、结构分析、依存分析语义分析:词义、句义(
8、逻辑、格关系、.)、篇章(上下文)(指代、实体关系)语言生成:从某种内部表示生成语言表达多语言处理(机器翻译、跨语言检索):语言之间的对应、转换不同的应用对上述任务有不同的要求。,自然语言的分类(基于形态结构),分析型语言词形变化很少没有表示词的语法功能的附加成分,由词序和虚词表示词之间的语法关系汉语、藏语等黏着型语言有词形变化词的语法意义(功能)由附加成分表达日语、芬兰语等屈折型语言有词形变化词的语法意义由词的形态变化来表示英语、德语、法语等另外,还可以按SVO型(主动宾)、VSO型(动主宾)和SOV 型(主宾动) 分类,自然语言处理的实现方法,基于规则的理性方法(Rationalist a
9、pproach)基于以规则形式表达的语言知识(词、句法、语义以及转换、生成)进行推理。强调人对语言知识的理性整理。受Chomsky主张的人具有先天语言能力观点的影响,主宰19601985基于语料库的经验方法(Empiricist approach)以大规模语料库(单语和双语)为语言知识基础。利用统计学习和基于神经网络的深度学习方法自动获取和运用隐含在语料库中的知识。学习到的知识体现为一系列模型参数。,混合方法理性方法的优、缺点相应的语言学理论基础好语言知识描述精确处理效率高知识获取困难(高级劳动)系统鲁棒性(适应性)差:不完备的规则系统将导致推理的失败知识扩充困难,很难保证规则之间的一致性经验
10、方法的优、缺点知识获取容易(低级劳动)系统鲁棒性好:概率大的作为结果知识扩充容易、一致性容易维护相应的语言学理论基础差缺乏对语言学知识的深入描述和利用,过于机械处理效率低利用各家之长,相互融合,自然语言处理的难点,歧义处理有限的词汇和规则表达复杂、多样的对象语言知识的表示、获取和运用成语和惯用型的处理对语言的灵活性和动态性的处理灵活性:同一个意图的不同表达,甚至包含错误的语法等动态性:语言在不断的变化,如:新词等上下文和世界知识(常识,语言无关)的利用和处理,汉语处理的难点,缺乏计算语言学的句法/语义理论,大都借用基于西方语言的句法/语义理论词法分析分词词性标注难句法分析主动词识别难词法分类与
11、句法功能对应差语义分析句法结构与句义对应差时体态确定难 (汉语无形态变化)资源(语料库)缺乏,自然语言处理所涉及的学科,计算语言学:各种语法、语义理论计算机科学(包括人工智能、机器学习)数学:逻辑、概率与统计、信息论等哲学(认知学)心理学.,基于规则的自然语言处理方法 (理性方法,传统方法),概述,强调对语言知识的理性整理(知识工程)受计算语言学理论指导基于规则的知识表示和推导(符号计算)语言处理规则(数据)与程序分离,程序体现为规则语言的解释器!,词法分析,形态还原(针对英语、德语、法语等)把句子中的词还原成基本词形。词性标注为句子中的词标上预定义类别集合(标注集)中的类。命名实体识别人名地
12、名机构名分词(针对汉语、日语等)识别出句子中的词。,形态还原(英语),把句子中的词还原成原形,作为词的其它信息(词典、个性规则)的索引。构词特点屈折变化:词尾和词形变化,词性不变。如:study, studied,studied,studyingspeak,spoke,spoken,speaking派生变化:加前缀和后缀,词性发生变化。如:friend,friendly,friendship,.复合变化:多个单词以某种方式组合成一个词。还原规则通用规则:变化有规律个性规则:变化无规律,形态还原规则举例,英语“规则动词”还原*s - * (SINGULAR3)*es - * (SINGULAR3
13、)*ies - *y (SINGULAR3)*ing - * (VING)*ing - *e (VING)*ying - *ie (VING)*?ing - *? (VING)*ed - * (PAST)(VEN)*ed - *e (PAST)(VEN)*ied - *y (PAST)(VEN)*?ed - *? (PAST)(VEN),英语不规则动词还原went - go (PAST)gone - go (VEN)sat - sit (PAST) (VEN),形态还原算法,输入一个单词如果词典里有该词,输出该词及其属性,转4,否则,转3如果有该词的还原规则,并且,词典里有还原后的词,则输出还
14、原后的词及其属性,转4,否则,调用如果输入中还有单词,转(1),否则,结束。Proj. 1 实现一个英语单词还原工具。(词典:http:/ class)Nouns句法上:可作物主、可有限定词、有复数形式语义上:人名、地名和物名Verbs句法上:作谓语、有几种词形变化语义上:动作、过程(一系列动作)Adjectives句法上:修饰Nouns等语义上:性质Adverbs句法上:修饰Verbs等语义上:方向、程度、方式、时间,封闭类(closed class,function words)DeterminersPronounsPrepositionsConjunctionsAuxiliary ver
15、bsParticles(if、not、.)Numerals,为什么要分类?分类带来的问题?兼类词一个词具有两个或者两个以上的词性英文的Brown语料库中,10.4%的词是兼类词。例如:The back doorOn my backPromise to back the bill汉语兼类词,例如:把门锁上, 买了一把锁他研究., 研究工作汉语词的兼类更多?与所采用的分类体系是否有关?,词性标注方法,规则方法词典和规则提供候选词性消歧规则进行消歧统计方法选择最可能的词性训练用语料库(已标注词性)基于转换学习的方法统计学习得到规则用规则方法进行词性标注,汉语分词(切分),词是语言中最小的能独立运用的
16、单位,也是语言信息处理的基本单位。分词是指根据某个分词规范,把一个“字”串划分成“词”串。难以确定何谓汉语的“词”单字词与语素的界定:猪肉、牛肉词与短语(词组)的界定:黑板、黑布信息处理用现代汉语分词规范:GB-13715(1992)具体应用系统可根据各自的需求制定规范分词带来的问题丢失信息、错误的分词、不同的分词规范,切分歧义及歧义字段的种类,交集型歧义字段ABC切分成AB/C或A/BC如:“和平等”“独立/自主/和/平等/独立/的/原则”“讨论/战争/与/和平/等/问题”组合型歧义字段AB切分成AB或A/B如:“马上”“他/骑/在/马/上”“马上/过来”混合型歧义由交集型歧义和组合型歧义嵌
17、套与交叉而成如:“得到达”(交集型、组合型)“我/今晚/得/到达/南京” “我/得到/达克宁/了 ” “我/得/到/达克宁/公司/去”,南京市长江大桥.,南京市长江二桥.,伪歧义与真歧义伪歧义字段指在任何情况下只有一种切分“挨批评”只有一种切分根据歧义字段本身就能消歧真歧义字段指在不同的情况下有多种切分“从小学”可以有多种切分:“从小/学” ,如:“从小/学/电脑” (“从小”是切分成“从小”还是“从/小”要根据分词规范!)“从/小学”,如:“他/从/小学/毕业/后”根据歧义字段的上下文来消歧,分词方法,一般通过分词词典和分词规则库进行分词。主要方法有:正向最大匹配(FMM)或逆向最大匹配(R
18、MM)从左至右(FMM)或从右至左(RMM),取最长的词“幼儿园 地 节目”或“幼儿 园地 节目”双向最大匹配分别采用FMM和RMM进行分词如果结果一致,则认为成功;否则,采用消歧规则进行消歧(交集型歧义):正向最大、逆向最小匹配发现组合型歧义逐词遍历匹配在全句中取最长的词,去掉之,对剩下字符串重复该过程 设立切分标记收集词首字和词尾字,把句子分成较小单位,再用某些方法切分 全切分获得所有可能的切分,选择最大可能的切分,基于规则的歧义字段消歧方法,利用歧义字串、前驱字串和后继字串的句法、语义和语用信息:句法信息“阵风”:根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风”语
19、义信息“了解”:“他/学会/了/解/数学/难题”(“难题”一般是“解”而不是“了解”,另外,还有“学会”)语用信息“拍卖”:“乒乓球拍卖完了”,要根据场景(上下文)来确定规则的粒度基于具体的词(个性规则)基于词类、词义(共性规则)Proj. 2 实现一个基于词典与规则的汉语自动分词系统。(词典:http:/ ate the cat的组成分分析,S,NP,VP,NAME,John,V,NP,ate,ART,N,the,cat,John ate the cat的依存分析,John ate the cat,sub,obj,mod,句法分析-组成分分析,句法分析的目的判断句子的合法性(句子识别)确定句
20、子的结构(句子中单词相互关联的方式)基于上下文无关语法(CFG)的表示CFG能描述大部分的自然语言结构可以构造高效的基于CFG的句法分析器通常采用树形结构来表示句法分析的结果,优秀语法的特征,通用性能正确分析的句子的范围选择性能判断出错误句子的范围可理解性自身的简易程度*鲁棒性对不合法句子的容忍度(通用性):He love her.通用性与选择性矛盾的处置,如:忽略主谓一致性检查将导致无法区分下面句子的不同含义(歧义)Flying planes are dangerous.Flying planes is dangerous.,一个简单的基于CFG的英语文法,1. S - NP VP2. VP
21、 - V NP3. NP - NAME4. NP - ART N5. NAME - John6. V - ate7. ART - the8. N - cat9. .产生式59属于词法规则,一般由词典、词形还原以及词性标注算法来描述 。产生式14属于句法规则。,基于CFG的分析器,自顶向下利用产生式,从S开始,尝试将S改写/推导成与输入句子相匹配的终结符号序列。自底向上利用产生式,尝试将输入句子与产生式右部进行匹配,最后规约到S。回溯在改写或规约的某一步可能有多个选择。从一个错误的尝试(改写或规约)返回,进行下一个尝试。保留改写或规约的历史回溯需要输出正确的分析结果也需要,一个简单的自顶向下句法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 NaturalLanguageProcessing NLP
限制150内