基于中文医疗知识图谱的智能问答系统设计与实现.pdf
《基于中文医疗知识图谱的智能问答系统设计与实现.pdf》由会员分享,可在线阅读,更多相关《基于中文医疗知识图谱的智能问答系统设计与实现.pdf(62页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、分类号分类号 学号学号 M201672922 学校代码学校代码 1 0 4 8 7 密级密级 硕士学位论文 基于中文医疗知识图谱的基于中文医疗知识图谱的智能智能问答问答系系 统设计统设计与实现与实现 学位申请人学位申请人 : 许武奎许武奎 学 科 专 业学 科 专 业 : 计算机计算机技术技术 指 导 教 师指 导 教 师 : 辜希武辜希武 讲师讲师 答 辩 日 期答 辩 日 期 : 2018 年年 5 月月 22 日日 万方数据A Thesis Submitted in Full Fulfillment of the Requirements for the Degree of Master
2、 of Engineering Design and Implementation of Intelligent Question Answering System Based on Chinese Medical Knowledge Graph Candidate : Wukui Xu Major : Computer Technology Supervisor : Lecturer Xiwu Gu Huazhong University of Science and Technology Wuhan 430074, P. R. China May, 2018 万方数据独创性声明独创性声明
3、本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。 对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:许武奎 日期: 2018 年 5 月 28 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进
4、行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密, 在 年解密后适用本授权书。 不保密。 (请在以上方框内打“”) 学位论文作者签名:许武奎 指导教师签名:辜希武 日期: 2018 年 5 月 28 日 日期:2018 年 5 月 28 日 本论文属于 万方数据I 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 摘摘 要要 随着互联网技术的飞速发展,网络上的信息量呈现爆炸式增长。为了从海量的数据中获取有用的信息,搜索引擎应运而生,并迅速成为人们日常生活中不可或缺的重要工具。然而,传统搜索引擎有其固有的局限性:定制化能力差、搜索结果准确率不高和用户友
5、好性较差等。智能问答系统的出现缓解了上述问题,其通过理解自然语言问题,直接反馈给用户最简单明确的答案,用户体验得到了极大的提高。另一方面,知识图谱作为人工智能领域的基石,被广泛应用于智能问答系统中。在上述背景下,针对健康医疗领域,提出并设计实现了一个基于中文医疗知识图谱的智能问答系统(HCQA) 。 常见的健康医疗问题可以被抽象成两大类:面向疾病的信息查询和面向症状的疾病诊断,并针对性地设计了两个功能模块。在面向疾病的信息查询模块中,首先利用基于神经网络的主题实体抽取模型将自然语言问题中的主题实体抽取出来;然后利用基于 SVM 的问题分类器确定问题类别,用类别信息代表问题的查询目标;最后将上述
6、信息输入 SPARQL 构造器得到标准的查询语句, 并在知识图谱中查询结果。在面向症状的辅助诊断模块中, 利用 KG Embedding 技术将知识图谱中的实体和关系映射到低维稠密向量空间,并提出利用实体的类别信息来丰富其向量表示。在向量空间上计算症状和疾病之间的相关性,以此模拟症状到疾病的诊断过程。针对主题实体抽取模型、知识表示学习模型和基于表示学习的疾病推理模型都合理设计了实验,试验结果表明提出的模型在真实数据集上具备较好的性能。 最后,综合上述模型和算法,开发了 HCQA 原型系统。该系统具有较强的问题分析和解答能力,并拥有良好的用户体验,证明了研究工作的实用价值。 关键词:关键词:智能
7、问答系统,神经网络,主题实体抽取模型,知识图谱 万方数据II 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 Abstract With the rapid development of Internet technology, the amount of information on the Internet has exploded. In order to obtain useful information from vast amounts of data, search engines emerged as the times require. However
8、, traditional search engines have their inherent limitations: poor customization, low accuracy and poor user-friendliness. The emergence of the intelligent question answering system alleviated the above problems. By understanding natural language question, it directly fed back to user the most accur
9、ate answer, user experience has been greatly improved. On the other hand, as a cornerstone of the field of artificial intelligence, knowledge graph is widely used in intelligent question answering systems. In the above background, an intelligent question answering system based on the chinese medical
10、 knowledge graph is proposed. Common healthcare question is abstracted into two categories: disease-oriented information query and symptom-oriented disease diagnosis. In the disease-oriented information query module, firstly, a topic-based entity extraction model based on neural network is used to i
11、dentify topic entities in natural language questions; Then, a question classifier based on SVM is used to determine question categories; Finally, the above informations are put into the SPARQL constructor to get the standard query statement, and search the result in the knowledge graph.In the sympto
12、m-oriented disease diagnosis module, KG Embedding technology is used to map the entities and relations into the low-dimensional dense vector space, and proposes to use the category information of the entity to enrich its vector representation. On this basis, the correlation between symptoms and dise
13、ases is calculated to simulate the process of diagnosis from symptoms to diseases. Experiments are designed on the above three core models respectively, the results show that our proposed model has good performance on real data sets. Finally, combining the above techniques, HCQA prototype system was
14、 developed. The system has strong problem analysis and answering capabilities, and also has good user experience, which proving the practical value of the research work in this paper. Keywords: intelligent question answering system, neural network, subject entity extraction model, Knowledge Graph 万方
15、数据III 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 目目 录录 摘摘 要要 . I A Abstractbstract . II 1 绪绪 论论 1.1 课题研究背景 . (1) 1.2 课题研究的目的和意义 . (2) 1.3 国内外研究现状 . (3) 1.4 论文主要研究内容 . (5) 1.5 论文组织结构 . (7) 2 相关技术相关技术 2.1 知识图谱的表示学习模型 . (8) 2.2 命名实体识别技术 . (14) 2.3 SPARQL 相关技术 . (15) 2.4 本章小结 . (17) 3 HCQAHCQA 系统架构和功能设计系统架构和功能
16、设计 3.1 HCQA 系统架构 . (18) 3.2 面向疾病的信息查询模块 . (19) 3.3 面向症状的辅助诊断模块 . (26) 3.4 实验与分析 . (31) 3.5 本章小节 . (38) 4 HCQAHCQA 系统设计与实现系统设计与实现 4.1 系统基础数据构建 . (39) 4.2 系统设计与实现 . (41) 4.3 系统结果展示 . (43) 万方数据IV 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 4.4 本章小节 . (45) 5 总结与展望总结与展望 5.1 论文工作总结 . (46) 5.2 进一步研究方向 . (47) 致致 谢谢
17、 . (48) 参考文献参考文献. (50) 附录附录 1 攻读硕士学位期间参与的科研项目攻读硕士学位期间参与的科研项目 . (54) 附录附录 2 攻读硕士学位期间申请的软件着作权攻读硕士学位期间申请的软件着作权 . (55) 万方数据1 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 1 绪 论 本章首先介绍知识图谱和问答系统的研究背景以及国内外研究现状,通过介绍课题的研究意义和目的,明确了本文的研究重心。接下来简要地介绍了本文的主要研究内容,最后给出了本文的具体组织结构。 1.1 课题研究背景 21 世纪是互联网技术进入高速发展的时期,网络早已成为人们日常生活和工
18、作中不可或缺的一部分。随着互联网产业的快速迭代和升级,网络上的信息量也随之飞速地积累和增长,如何从这浩如烟海的信息中快速获取自己所需要的东西成为每一个人关心的事情。搜索引擎的面世在一定程度上缓解了这个问题,其已经成为当下人们获取信息的最要途径。但是,传统的搜索引擎都是基于倒排索引、字符串匹配等传统技术,根据用户提供的关键词序列返回相关性由高到低的网页链接。一般情况下,返回的结果成千上万个,用户还需要访问多个网页链接,从中搜寻最佳的结果。也就是说,传统的搜索引擎只是帮助用户筛选出一部分与提问相关的网页,而想要获取答案还需要用户自己去具体的网页内容中寻找,这同样会耗费大量时间。另外,目前主流的搜索
19、引擎都普遍存在定制能力相对较差、对结果的查全率、准确率不高,集中体现在以下几个方面: (1) 查准率和查全率不高。目前主流搜索引擎的返回结果中都存在大量与查询主题无关的网页链接,真正包含关键信息的网页反而占少数; (2) 忽略语义信息,理解能力差。传统搜索引擎是基于关键词的检索,忽略了蕴含大量关键信息的语义和语法信息; (3) 对查询问题的表述要求较高,稳定性不高。传统搜索引擎需要用户输入尽可能多的与主题相关的关键词,但由于用语习惯、文化差异等特性,往往细微的查询语句差距可以导致相隔甚远的查询结果。 针对传统搜索引擎的问题, 在搜索领域衍生出了一个全新的分支智能问答系统(FQA) 。问答系统通
20、过分析问题语义来理解真正的搜索意图,然后直接给出问万方数据2 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 题的答案。所以对于问答系统来说,其搭建了一条直接从问题到答案的桥梁,更加符合人类的搜索习惯和需求。问答系统的功能实现离不开背后海量的结构化数据的支撑,并且这些结构化数据需要支撑尽可能丰富的知识推理。知识图谱的出现很好地弥补了这一空缺,通过结合语义网、本体论等相关思想和技术,使其成为一个“具有思想的大脑”,而不仅仅是一个简单的数据库。把知识图谱与问答系统结合起来,将搜索的关注点由表面的字符串上升到现实世界中真实存在的实体,由此能更深入地理解用户真正的搜索意图,用户
21、的搜索体验能得到极大的提升。因此,问答系统和知识图谱现今已成为搜索领域的发展潮流。 1.2 课题研究的目的和意义 问答系统有着漫长的发展历史,早期的问答系统主要依赖搜索技术,通过从文本源中查询相关的文档1,在目标文档中提取问题相关的答案。后来又出现了基于协同的智能问答系统1,这类系统会在后台维护一个问题-答案的数据集合,回答问题的过程即是在所有问题中找到与之最接近的问题,返回其对应的答案。到了上世纪70 年代,结构化查询成为问答系统的主流技术。这类技术首先将自然语言转换成结构化查询语言,例如常见的 SQL 语句,或是后来出现的面向知识图谱的 SPARQL 语句3,然后在搜索知识库并返回结果。现
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 中文 医疗 知识 图谱 智能 问答 系统 设计 实现
限制150内