NLP之自然语言处理简述.docx
《NLP之自然语言处理简述.docx》由会员分享,可在线阅读,更多相关《NLP之自然语言处理简述.docx(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、NLP之自然语言处理简述什么是自然语言处理自然语言处理是研究在人与人交际中和人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言才能linguisticcompetence以及语言应用linguisticperformance的模型建立计算框架来实现这样的语言模型提出相应的方法来不断完善这样的语言模型根据这样的语言模型设计各种实用系统并讨论这些实用系统的评测技术。根据这个定义自然语言处理要研究“在人与人交际中和人与计算机交际中的语言问题既要研究语言又要研究计算机因此它是一门穿插学科它涉及语言学、计算机科学、数学、自动化等不同学科。以宗成庆所著?统计自然语言处理?为例其在统计自然语言
2、处理的理论方面首先介绍相关的根底知识例如概率论以及信息论的根本概念、形式语言以及自动机的根本概念。由于统计自然语言处理是以语料库以及词汇知识库为语言资源的因此接下来本书讲解了语料库以及词汇知识库的根本原理。语言模型以及隐马尔可夫模型是统计自然语言处理的根底理论在统计自然语言处理中具有重要地位。因此本书介绍了语言模型的根本概念并讨论了各种平滑方法以及自适应方法又介绍了隐马尔可夫模型以及参数估计的方法。接着本书分别阐述了在词法分析与词性标注中的统计方法在句法分析中的统计方法在词汇语义中的统计方法。基于统计的自然语言处理的理论根底是哲学中的经历主义基于规那么的自然原因处理的理论根底是哲学中的理性主义
3、。讲到底这个问题是关于怎样处理经历主义以及理论主义关系的问题。自然语言处理研究的内容机器翻译machinetranslation,MT实现一种语言到另一种语言的自动翻译自动文摘automaticabstracting将文档的主要内容以及含义自动归纳、提炼形成摘要信息检索informationretrieval从海量文档中找到符合用户需要的相关文档文档分类documentcategorization/classification对大量的文档按照一定的分类标准例如根据主题或者内容划分等实现自动归类。文档分类也称文本分类textcategorization/classification或者信息分类i
4、nformationcategorization/classification近年度来情感分类sentimentclassification或者称文本倾向性识别textorientationidentification成为本领域研究的热点。问答系统question-answeringsystem对用户提出的问题的理解利用自动推理等手段在有关知识资源中自动求解答案并做出相应的答复。信息过滤informationfiltering自动识别以及过滤那些知足特定条件的文档信息。信息抽取informationextraction指从文本中抽取出特定的事件event或者事实信息有时候又称事件抽取event
5、extraction。信息抽取与信息检索不同信息抽取直接从自然语言文本中抽取信息框架一般是用户感兴趣的事实信息而信息检索主要是从海量文档集合中找到与用户需求一般通过关键词表达相关的文档列表而信息抽取那么是祈望直接从文本中获得用户感兴趣的事实信息。当然信息抽取与信息检索也有亲密的关系信息抽取系统通常以信息检索系统如文本过滤的输出作为输入而信息抽取技术又可以用来进步信息检索系统的性能。信息抽取与问答系统也有亲密的联络。一般而言信息抽取系统要抽取的信息是明定的、事先规定好的系统只是将抽取出来的事实信息填充在给定的框架槽里而问答系统面对的用户问题往往是随机的、不确定的而且系统需要将问题的答案生成自然语
6、言句子通过自然、标准的语句准确地表达出来使系统与用户之间形成一问一答的交互经过。文本挖掘textmining从文本多指网络文本中获取高质量信息的经过。文本挖掘技术一般涉及文本分类、文本聚类textclustering、概念或者实体抽取concept/entityextraction、粒度分类、情感分析sentimentanalysis、自动文摘以及实体关系建模entityrelationmodeling等多种技术。舆情分析publicopinionanalysis舆情是较多群众关于社会中各种现象、问题所表达的信念、态度、意见以及情绪等等表现的总以及。显然舆情分析是一项特别复杂、涉及问题诸多的综
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NLP 自然语言 处理 简述
限制150内