基于BLSTM-CNN-CRF的中文命名实体识别方法.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于BLSTM-CNN-CRF的中文命名实体识别方法.docx》由会员分享,可在线阅读,更多相关《基于BLSTM-CNN-CRF的中文命名实体识别方法.docx(6页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、基于BLSTM-CNN-CRF的中文命名实体识别方法刘宇鹏 栗冬冬摘 要:传统的命名实体识别方法依赖大量的人工选择的特征和专业领域的外部知识,针对这一问题,提出了一种新颖的神经网络结构,该算法结合了双向LSTM,CNN和CRF可以同时自动获取到基于字符级别和词语级别的表示,是一种真正意义上的端到端的结构,不再需要人工选择特征和数据的预处理,可以应用到各个领域的命名实体识别任务中去。最后,通过实验证明该算法在医疗领域和新闻领域的F1值分别达到了90-97%和92-19%。关键词:命名实体识别;长短期记忆网络;卷积神经网络;条件随机场DOI:10.15938/j.jhust.2020.01.017
2、中图分类号: TP391.1文献标志码: A文章编号: 1007-2683(2020)01-0115-06Abstract:Traditional algorithms of named entity recognition rely on a large number of artificial features and external knowledgeTo solve this problem, we propose a novel neural network structure which combines the bidirectional LSTM(Long Short-Ter
3、m Memory), CNN(Convolution Neural Network) and CRF(Conditional Random Field)This algorithm can also automatically get both character-level and word-level representationsIt is a truly end-to-end system, requiring no feature engineering and data processingThus, it can be easily applied to various fiel
4、ds of named entity recognition taskFinally, the experimental results show that the F1 measure of the algorithm in the medical and news field is 90-97% and 92-19%, respectively-Keywords:named entity recognition; long short-term memory; convolution neural network; conditional random field0 引 言命名实体识别(n
5、amed entity recognition, NER)作为自然语言处理的一项基础任务,在自然语言处理领域有着很重要的作用1-2,分为在不同语言上的命名实体识别3-4,微博上的命名实体识别5和Twitter上的命名实体识别6-8等。在机器对话、问答系统、机器翻译等任务中都有着重要的应用。传统方法中表现最优的就是基于统计的模型,例如隐马尔可夫模型(hidden markov models HMM)、条件随机场模型(conditional random fields, CRF)9,这些方法需要大量的人工选择的特征和外部知识信息,例如字典信息,很难直接解决一个全新领域的命名实体识别问题。近年来,利
6、用神经网络获取词语表示作为模型的输入(例如词向量)在自然语言处理领域取得了巨大的成功10-12。循环神经网络以及其变形长短期记忆网络(long-short term memory, LSTM)在解决序列标注任务中表现优异13-15。本文提出了一种结合双向LSTM、卷积神经网络(convolutional neural network, CNN)、CRF的方法,首先利用CNN获取词语基于字符的表示,然后结合词向量加入到双向LSTM中,最后利用线性CRF联合解码标签。该模型不需要外部知识和手工选择特征,在不同领域的数据上进行实验验证了其可行性和有效性。1 问题描述NER是指从一段文本中提取出具有特
7、定含义的词语,即实体16。实体的类型有很多种,常见的有人名、地名、机构名等,在一些特定领域会有其独特的实体,例如医疗领域的病症名称、药物名称等。这些实体信息对进一步分析句子含义有很大的帮助。一般会把NER问题看成序列标注问题,标注问题一般是监督学习问题,也可以看成是一种复杂的结构预测问题的简单形式17。NER任务分为学习和标注两个过程,首先有一个带标注信息的数据集作为训练数据。2 神经网络结构2-1 CNN提取字符级别的表示之前的研究表明卷积神经网络(convolutional neural network, CNN)在提取局部特征方面十分有效18,因此在本系统中先利用CNN提取出词语基于字符
8、的特征将其编码到神经网络中。其结构表示图如图1所示,CNN的输入为字符的embedding,图1中虚线部分为dropout層。4-3 实验结果分析通过在两组不同领域的数据集上进行实验,本文中混合模型在各组实验中均取得了高于单一模型的预测效果。且在新闻领域和医疗领域中,实体类别区别非常大,使用本文中的模型,不需要任何的数据预处理和引入外部知识信息。验证了该模型可以很好的应用到不同领域的命名实体识别任务中,模型的通用性较好。5 结 论针对命名实体识别在不同领域中的类型千差万别,传统的命名实体识别方法中需要大量人工选择的特征和引入外部的知识信息,本文提出了一种结合CNN、BLSTM、CRF的模型,可
9、以直接应用到不同类型的实体标注中去。通过在新闻领域和医疗领域数据集上的多组对比实验,该系统均取得了高于传统单一模型的结果。在接下来的工作中,可以对模型进一步改进,探索多任务学习方法,针对不同的领域结合更多有用的相关信息。参 考 文 献:1 DAVID N,SATOSHI S.A Survey of Named Entity Recognition and ClassificationJ. Logistical Investigations,2007,30(1):3.2 劉浏, 王东波. 命名实体识别研究综述J. 情报学报, 2018, 37(3): 329.LIU Liu, WANG Dong
10、bo. A Survey of Named Entity Recognition)J. Journal of the China Society for Scientific and Technical Information, 2018, 37(3): 329.3 王路路, 艾山, 吾买尔. 基于 CRF 和半监督学习的维吾尔文命名实体识别J. 中文信息学报, 2018, 32(11): 16.WANG Lulu, AI Shan, WU Maier. A Semi-supervised Approach to Uyghur Named Entity Recognition Based on
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BLSTM CNN CRF 中文 命名 实体 识别 方法
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内