人工智能之知识图谱研究报告.pdf
《人工智能之知识图谱研究报告.pdf》由会员分享,可在线阅读,更多相关《人工智能之知识图谱研究报告.pdf(86页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 图表目录图表目录 图 1 知识工程发展历程. 3 图 2 Knowledge Graph 知识图谱 . 9 图 3 知识图谱细分领域学者选取流程图. 10 图 4 基于离散符号的知识表示与基于连续向量的知识表示. 11 图 5 知识表示与建模领域全球知名学者分布图. 13 图 6 知识表示与建模领域全球知名学者国家分布统计. 13 图 7 知识表示与建模领域中国知名学者分布图. 14 图 8 知识表示与建模领域各国知名学者迁徙图. 14 图 9 知识表示与建模领域全球知名学者 h-index 分布图 . 15 图 10 知识获取领域全球知名学者分布图. 23 图 11 知识获取领域全球知名学
2、者分布统计 . 23 图 12 知识获取领域中国知名学者分布图. 23 图 13 知识获取领域各国知名学者迁徙图. 24 图 14 知识获取领域全球知名学者 h-index 分布图 . 24 图 15 语义集成的常见流程. 29 图 16 知识融合领域全球知名学者分布图. 31 图 17 知识融合领域全球知名学者分布统计. 31 图 18 知识融合领域中国知名学者分布图. 31 图 19 知识融合领域各国知名学者迁徙图. 32 图 20 知识融合领域全球知名学者 h-index 分布图 . 32 图 21 知识查询与推理领域全球知名学者分布图. 39 图 22 知识查询与推理领域全球知名学者分
3、布统计. 39 图 23 知识查询与推理领域中国知名学者分布图. 39 图 24 知识表示与推理领域各国知名学者迁徙图. 40 图 25 知识查询与推理领域全球知名学者 h-index 分布图 . 40 图 26 知识应用领域全球知名学者分布图. 46 图 27 知识应用领域全球知名学者分布统计. 46 图 28 知识应用领域中国知名学者分布图. 47 图 29 知识应用领域各国知名学者迁徙图. 47 图 30 知识应用领域全球知名学者 h-index 分布图 . 48 图 31 行业知识图谱应用. 68 图 32 电商图谱 Schema . 69 图 33 大英博物院语义搜索. 70 图 3
4、4 异常关联挖掘. 70 图 35 最终控制人分析. 71 图 36 企业社交图谱. 71 图 37 智能问答. 72 图 38 生物医疗. 72 图 39 知识图谱领域近期热度. 75 图 40 知识图谱领域全局热度. 75 表 1 知识图谱领域顶级学术会议列表. 10 表 2 知识图谱引用量前十论文. 56 表 3 常识知识库型指示图. 67 2 1. 概念篇概念篇 1.1. 知识图谱概念和分类知识图谱概念和分类 知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的 关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和 理解
5、互联网海量信息的能力。 知识图谱给互联网语义搜索带来了活力, 同时也在智能问答中 显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。 知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信 息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习等交叉研究,属人工智能重 要研究领域知识工程的研究范畴。知识图谱于 2012 年由谷歌提出并成功应用于搜索引擎, 是建立大规模知识的一个杀手锏应用。 1.1.1. 知识图谱的概念知识图谱的概念 1994 年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义将知识集 成到计算机系统从而完成只有特定领域专家才能完成
6、的复杂任务。 在大数据时代, 知识工程 是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。 大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需 要利用知识工程为大数据添加语义/知识,使数据产生智慧(Smart Data) ,完成从数据到信 息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答 案、为决策提供支持、改进用户体验等目标。知识图谱在下面应用中已经凸显出越来越重要 的应用价值: 知识融合: 当前互联网大数据具有分布异构的特点, 通过知识图谱可以对这些数据 资源进行语义标注和链接,建立以知识为中心的资
7、源语义集成服务; 语义搜索和推荐: 知识图谱可以将用户搜索输入的关键词, 映射为知识图谱中客观 世界的概念和实体, 搜索结果直接显示出满足用户需求的结构化信息内容, 而不是 互联网网页; 问答和对话系统: 基于知识的问答系统将知识图谱看成一个大规模知识库, 通过理 解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案; 大数据分析与决策: 知识图谱通过语义链接可以帮助理解大数据, 获得对大数据的 洞察,提供决策支持。 当前知识图谱中包含的主要几种节点有: 3 实体:指的是具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某 一种植物、某一件商品等等。世界万物有具体事物组成,
8、此指实体。实体是知识图 谱中的最基本元素,不同的实体间存在不同的关系。 概念:具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。 属性:用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于 不同类型属性的边。 如果属性值对应的是概念或实体, 则属性描述两个实体之间的 关系,称为对象属性;如果属性值是具体的数值,则称为数据属性。 1.1.2. 知识图谱的分类知识图谱的分类 知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上来说, 知识图谱通常分为通用(领域无关)知识图谱和特定领域知识图谱: 通用知识图谱: 通用知识图谱可以形象地看成一个面向通用领域的 “
9、结构化的百科 知识库” ,其中包含了大量的现实世界中的常识性知识,覆盖面极广。 特定领域知识图谱: 领域知识图谱又叫行业知识图谱或垂直知识图谱, 通常面向某 一特定领域,可看成是一个“基于语义技术的行业知识库” 。 其他分类方式不再一一赘述。 1.2. 知识工程发展历程知识工程发展历程 回顾知识工程四十年多来发展历程, 总结知识工程的演进过程和技术进展, 可以将知识 工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网 1.0 时期,群体智能 时期以及知识图谱时期,如图 1 所示。 l 1950-1970 时期:图灵测试知识工程诞生前期 人工智能旨在让机器能够像人一样解决复杂问题,
10、图灵测试是评测智能的是手段。 这一 阶段主要有两个方法: 符号主义和连结主义。 符号主义认为物理符号系统是智能行为的充要 条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有 图 1 知识工程发展历程 4 代表性的工作是通用问题求解程序(GPS) :将问题进行形式化表达,通过搜索,从问题初 始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一 时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这一时代人工智能和 知识工程的先驱 Minsky,Mccarthy 和 Newell 以 Simon 四位学者因为他们在感知机、人工智
11、能语言和通用问题求解和形式化语言方面的杰出工作分别获得了 1969 年、 1971 年、 1975 年 的图灵奖。 l 1970-1990 时期:专家系统知识工程蓬勃发展期 通用问题求解强调利用人的求解问题的能力建立智能系统, 而忽略了知识对智能的支持, 使人工智能难以在实际应用中发挥作用。70 年开始,人工智能开始转向建立基于知识的系 统, 通过 “知识库+推理机” 实现机器智能, 这一时期涌现出很多成功的限定领域专家系统, 如 MYCIN 医疗诊断专家系统、识别分子结构的 DENRAL 专家系统以及计算机故障诊断 XCON 专家系统等。斯坦福人工智能实验室的奠基人 Feigenbaum 教
12、授在 1980 年的一个项 目报告Knowledge Engineering:The Applied Side of Artificial Intelligence中提出知识工程 的概念, 从此确立了知识工程在人工智能中的核心地位。 这一时期知识表示方法有新的演进, 包括框架和脚本等。80 年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域 知识转变成计算机可以处理的知识。 l 1990-2000 时期:万维网 在 1990年到 2000年, 出现了很多人工构建大规模知识库, 包括广泛应用的英文 WordNet, 采用一阶谓词逻辑知识表示的 Cyc 常识知识库,以及中文的 HowNet
13、。Web 1.0 万维网的产 生为人们提供了一个开放平台, 使用 HTML 定义文本的内容, 通过超链接把文本连接起来, 使得大众可以共享信息。W3C 提出的可扩展标记语言 XML,实现对互联网文档内容的结构 通过定义标签进行标记, 为互联网环境下大规模知识表示和共享奠定了基础。 这一时期在知 识表示研究中还提出了本体的知识表示方法。 l 2000-2006 时期:群体智能 在 2001 年,万维网发明人、2016 年图灵奖获得者 Tim Berners-Lee 在科学美国人杂志 中发表的论文The Semantic Web正式提出语义 Web 的概念,旨在对互联网内容进行结构 化语义表示,
14、利用本体描述互联网内容的语义结构, 通过对网页进行语义标识得到网页语义 信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。W3C 进一步提出 万维网上语义标识语言 RDF(资源描述框架)和 OWL(万维网本体表述语言)等描述万维 网内容语义的知识描述规范。 万维网的出现使得知识从封闭知识走向开放知识, 从集中构建知识成为分布群体智能知 识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关 联来产生更多的知识而非完全由固定人生产。 这个过程中出现了群体智能, 最典型的代表就 5 是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今
15、天大 规模结构化知识图谱的重要基础。 l 2006 年至今:知识图谱知识工程新发展时期 “知识就是力量” ,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算 的知识是这一时期的目标。从 2006 年开始,大规模维基百科类富结构知识资源的出现和网 络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。与 Cyc、WordNet 和 HowNet 等手工研制的知识库和本体的开创性项目不同,这一时期知识获取是自动化的, 并且在网络规模下运行。当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和 数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购 F
16、reebase 后在 2012 年推出的知识图谱(Knowledge Graph) ,Facebook 的图谱搜索,Microsoft Satori 以及商业、金融、生命科学等领域特定的知识库。最具代表性大规模网络知识获取的 工作包括DBpedia、 Freebase、 KnowItAll、 WikiTaxonomy和YAGO, 以及BabelNet、 ConceptNet、 DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia 等。这些知识图谱 遵循 RDF 数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属 性
17、值和与其他实体的关系) ,并且这些实体被组织在成千上万的由语义体现的客观世界的概 念结构中。 目前知识图谱的发展和应用状况, 除了通用的大规模知识图谱, 各行业也在建立行业和 领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以 及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识 图谱的创新应用还有待开发。 在我国知识工程领域研究中, 中科院系统所陆汝钤院士、 计算所史忠植研究员等老一代 知识工程研究学者为中国的知识工程研究和人才培养做出了突出贡献, 陆汝钤院士因在知识 工程和基于知识的软件工程方面作出的系统和创造性工作,以及在大知识领
18、域的开创性贡 献,荣获首届“吴文俊人工智能最高成就奖” 。 6 1.3. 知识图谱的知识图谱的知识图谱知识图谱 我们根据知识工程生命周期各个阶段的关键技术,利用 AMiner 中近年来知识图谱领域 的高水平学术论文, 挖掘出了包括知识表示 (knowledge representation) 、 知识获取 (knowledge acquisition) 、知识推理(knowledge reasoning) 、知识集成(knowledge integration)和知识存 储(knowledge storage)等相关关键词近年来全球活跃的学术研究。此外,结合知识图谱技 术,本报告将以上研究领域
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 知识 图谱 研究 报告
限制150内