基于微博文本的层次化实体链接方法-李禹恒.pdf
《基于微博文本的层次化实体链接方法-李禹恒.pdf》由会员分享,可在线阅读,更多相关《基于微博文本的层次化实体链接方法-李禹恒.pdf(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第46卷第3期 吉林大学学报(工学版) V0146 No32016年5月 Journal of Jilin University(Engineering and Technology Edition) May 2016基于微博文本的层次化实体链接方法李禹恒12,宋 俊12一,黄 宇123,付 琨12,吴一戎2,陈 昊12“(1中国科学院空间信息处理与应用系统技术重点实验室,北京100190;2中国科学院电子学研究所,北京100190;3中国科学院大学,北京100049;4北京空间信息中继传输技术研究中心,北京100094)摘 要:首先基于用户偏好一致性假设,根据信提及,利用消歧算法消歧,并将返
2、回的确认实体果正向传递给下一层更模糊的消歧任务。在人有良好的性能。息函数对所有提及进行排序,得到歧义最小的纳入消歧函数。通过这种迭代策略让正确的结工标注测试集上的实验结果表明,本文方法具关键词:计算机应用;实体链接;文本消岐;数据挖掘中图分类号:TP391 文献标志码:A 文章编号:16715497(2016)03090407DOI:10。13229jcnkijdxbgxb201603034Hierarchical entity linking based on microblogsLI Yuhen91,2”,SONG Junl2,HUANG Yul2“,FU Kunl”,WU Yiron92
3、,CHEN Ha012,4(1Key Laboratory of Technology in Geo-spatial Inrformation Processing and Application System,Institute ofElectronics,Chinese Academy of Sciences,Beijing 100190,China;2Institute of Electronics,Chinese Academy ofSciences,Beijing 100190,China;3University of Chinese Academy of Sciences,Beij
4、ing 100049,China;4BeijingSpace Information Relay Transmission Technology Research Center,Beijing 100094,China)Abstract:First,considering the assumption of user preference consistency,all the candidate mentionsare ranked based on a proposed Information FunctionThen,the most familiar candidate is assi
5、gnedto the given mention by adopting a Scoring FunctionThis procedure is iterated by incorporatingdisambiguated entities into the Scoring Function,which consequently passes on the certainty fromprevious linking results to the following rounds of more abstract linking tasksExperiment results onhumana
6、nnotated dataset show that the proposed method outperforms other methodsKey words:computer application;entity linking;text disambiguation;data mining0引 言互联网上,诸如维基百科、百度百科等一系列基于用户产生式内容(UGC)构建的百科类网站的迅猛发展为人类构建大规模通用知识库提供了便利,这种以实体为单位的知识结构具有较强的语义特征,可以准确地描述现实世界中客观存在的对象,同时通过建模实体之间的关系,可以进一步形成完备的知识图谱。现在较为成熟的知识
7、库包括:DBPediaEl】,YAGO2。,Freebase33和收稿日期:2015-0207基金项目:“863”国家高技术研究发展计划项目(2012AA011005)作者简介:李禹恒(1989一),男,硕士研究生研究方向:文本挖掘E-mail:liyuheng:meeom通信作者:付琨(1974),研究员,博士生导师研究方向:计算机视觉与遥感图像理解,地理空间信息挖掘与可视化E-mail:kunfuiecasgmailcorn万方数据第3期 李禹恒,等:基于微博文本的层次化实体链接方法 905ProbaseL4。这些现有的知识库可以用来理解海量的微博文本,作为真实的语料库,这些微博文本反过来
8、可以补充和增强现有的知识库结构。自然语言表达具有多样性和歧义性,因此其中涉及的命名实体往往是模糊的。如用户提到的SF既可以表示一种文学体裁(Science fiction)又可以表示地理位置(San Francisco)。此外,相较于传统实体链接任务中的文档,作为一种非结构化的自由文本,对于微博的实体链接任务还受制于长度限制和口语化表达。将微博实体链接定义为对微博文本中的实体名词(指称项)与知识库中唯一的实体之间的映射,若实体名词对应的实体在知识库中不存在,则被映射到一个空实体(NIL)。实体链接任务是知识图谱构建的基础,在基于知识库的自动问答系统中,对于自然语言的消歧和链接是影响系统效力的关
9、键因素;另外,在微博文本挖掘中,实体链接可以用来检测新闻动态、监视舆情、品牌管理以及个性化的推荐口6。比如通过对用户微博中提及的实体进行链接分析,可以得到用户的兴趣偏好口8,从而根据这些信息来进行有针对性的博文推荐9J 0I,或者提供精确的用户检索服务6。针对网络文本,前人在实体链接问题上进行了较为深入的研究口1。14,这些研究的主要的思路是通过规定一个指称项与实体页面之间的相似性度量准则来对候选实体进行打分排序,从而返回相似度最大的候选实体链接到该指称项上。然而基于上述对于微博文本的特性,不规范的用语和有限的上下文信息令这种基于本文内部上下文静态特征关系的方法在处理微博文本链接问题上效果并不
10、理想。另外一类研究则通过基于图的协同推断151 6。,综合考虑了指称项与实体间的文档内相似度,以及指称项间、实体间的文档间相似度,在实际应用中,构建实体关系图需要消耗大量的时间,同时图中大量的非相关候选实体会为权重传递引入负面的影响。针对上述方法的不足,本文提出了一种层次化的实体链接方法。该方法通过迭代策略让正确的结果正向传递给下一层更模糊的消歧任务,即根据指称项的模糊程度层次化地实现链接任务。1 系统构架本文方法认为任务中的指称项相互依赖,具有层次化的重要程度而非相互独立。该方法首先根据信息函数对同用户的所有提及进行排序,得到歧义最小的指称项,利用消歧算法消歧,并将输出的确认实体纳入消歧函数
11、,歧义较小的提及比较容易返回正确的结果,通过这种迭代策略让正确的结果正向传递给下一层更模糊的提及的消歧任务。如表1中用户50888543的第77条微博中Justin Verlander代表美国知名棒球选手,是一个歧义极小的指称项(维基百科中共出现139次“Justin Verlander”,均指向棒球运动员JustinVerlander(3616702),故首先将其链接到维基百科中编号为3616702的词条Justin Verlander,进而当对指称项Eagles、Yankee Stadium、AL等进行消歧的时候,会倾向于选择与Justin Verlander关系更近的候选实体,从而将他们
12、链接到Philadelphia Eagles、Yankee Stadium 和American League。方法框架如图1所示。表1微博中不规范的用语。Table 1 Irregular language usage in mieroblogs用户 编号 微博正文Opening Day at Yankee StadiumAmazing101935227 27 experience to w而五百广画丽http:tcojiEyl6kE4081481 4 E,van T“urnerspersonal war”ith theBullstront1ne ended wlth a t0U1I 11数据
13、预处理预处理主要面向两部分数据,其中微博数据作为测试集,需要进行数据清洗;知识库作为训练集需要进行数据清洗、实体页面特征提取以及提及一实体映射表的构建。首先去掉用户微博中的标点符号、“”及后面的用户名、超链接URL以及转发微博标志符RT,对非英文字符编码问题进行修正。测试集中部分人工标注的链接实体在知识库中不存在,或标注有误,同样在此阶段进行修正。本文使用2014年3月4日的维基百科作为训练集来训练算法模型。维基百科中每篇文章都对应唯一的实体,实体的不同名称经过超链接、重定向页面和歧义页面指向对应的实体本身。通过对实体页面文本的建模,可以得到丰富的语义信万方数据906 吉林大学学报(工学版)
14、第46卷否丝输H4NIL依次取出用户全部指称项信息函数捧序二二依次取出指标项l是冷启动消歧算法CEP为空7竖对该指称项消歧输出链接实体至圣I是图1层次化实体链接算法框架Fig1 Framework of HEL息,而通过对其中链接关系的梳理,可以进一步得到提及与实体的完整映射关系以及实体之间的关系。12特征提取根据本文模型的特点,选择实体流行度、上下文、邻近上下文、主题关联度作为主要消歧特征。其中实体流行度和上下文特征在独立消歧模型中被广泛用来刻画实体的先验概率及语义,主题关联度常用于协同消歧算法来描述实体间关系强度,此外,针对微博文本字数受限的问题,创新性引入邻近上下文以进一步挖掘实体的词性
15、特征。(1)流行度实验表明,超过70的指称项链接到流行度最高的候选实体。对于某待消歧的命名指称项O;,其备选实体集合为E,对于其中的备选实体ei伽E E,其实体流行程度定义如下:Pop(e;,。)=i竽坠冬 (1)count(P式中:count(彰,。)为0;对应实体P砌i的指向次数。(2)上下文相似度本文模型中利用上下文相似度来比较指称项与候选实体的语义相似性。通常在计算文本向量空间的相似度时采用向量之间的余弦夹角进行计算,但对于本研究课题,有些长尾实体在整个维基百科中出现的次数较少,上下文信息相对较少,在用余弦法计算其向量和命名指称项的文本向量相似度时,很容易出现相似度为零的情况,导致与其
16、他非主流的实体区分不明显。因此,本文使用文献17提出的一种基于朴素贝叶斯的加权相似度计算方法。对于某待消歧的命名指称项0;,其上下文向量空间表示为D(o;)一d。,d:,d。,d。,对于其中的备选实体ei。E E;,其实体的上下文相似度为:Sire。(g;,q)一一。gP(巩1 ei,q)logi tdkE et I。、可可厂一u式中:I E I为命名指称项0;的候选实体个数;t:d。e。1为实体集合E;中上下文词汇表中包含词语d。的实体个数;P(破f巧i,。)使用m一估计方法求得:P(dl Pi。)=生 (3)码广u式中:n为在备选实体g;。的上下文词汇表中词d。出现的次数;n,为备选实体e
17、;,。的上下文词汇表中词的总数(包括全部重复的词);副为整个文档集中无重复的词的个数。(3)邻近上下文相似度由于微博文本长度较短,传统的上下文相似度捕捉到的语义信息十分有限,甚至有的微博会出现无上下文的极端情况(如表1中第111条微博)。为了克服微博实体链接的这一问题,本文对邻近上下文特征进行建模。将命名实体或指称项的前一个词和后一个词分别称为邻近上、下文。通过观察发现这些与实体名词位置上紧密相连的词包含着丰富的能够反映名词性质的信息,比如微博中提到“How didwe get a New Benz?Ill show you”(UID35619,Index85),文中的指称项既可以表示人名Ka
18、rl Benz,也可能是汽车品牌MercedesBenz。显然文中提供的上下文并不足以支撑模型做出正确的判断,但直观上,“new”这个词更多用万方数据第3期 李禹恒,等:基于微博文本的层次化实体链接方法 。907来形容汽车而非人物,实际上“new”在“MercedesBenz”的上文词典中出现过23次,而从未在“Karl Benz”前使用过。基于知识库中的文本,为命名实体建立了邻近上下文词典,进而通过将待消歧的命名指称项O;的邻近上下文D(o;)一d。,d,与候选实体qi,。E的邻近上下文词典作比较,得到指称项与候选实体的邻近上下文相似度:Sire。(已;,。)一(109P(d。l 矗log器
19、2(4)(4)实体相关度维基百科中的超链接蕴含丰富的实体之间的关系信息。通过对维基百科进行文本挖掘,可以对这种实体相关性进行建模,得到关系矩阵以辅助完成实体链接任务。本文实体之间关联度计算方法使用Milne和Witten提出的维基百科概念之间的语义关联度计算方法WLM1 8|,这种方法基于维基百科的链接结构,其基本思想是:如果两个实体拥有更多的共享实体,那么这两个实体就越相关。对于两个实体e。和e。,其语义关联度计算公式如下:TR(Pl,e2)=1一log(max(I E1 l,I E2 I)一log(I E1 n E2 I)log(I WP I)一log(rain(I E1 J,I E2 J
20、)(5)式中:E。、E:分别为链接指向e。和e。的文档的集合;WP为全部知识库实体。式(5)为语义更相关的实体对赋予更高的值,TR(8。,e:)的取值范围为Eo0,1ol。13信息函数在人们试图去理解一篇微博中的不同指称项的含义时,如果遇到不能确定的模糊名称,会倾向于先去理解那些容易理解的名称,然后带着从确定实体中得到的先验知识去理解那些模糊的提及。如下微博:“Jordan is a super star in thefield of Machine Learning!”,指称项Jordan是一个十分常见的人名(根据对维基百科的学习,Jordan可以代282个不同的实体),然而MachineL
21、earning则是一个具体的学科,几乎没有歧义,因此认为这里的Jordan与Machine Learning领域关系密切。据此,本文提出信息函数的概念来衡量实体名词的模糊程度,并在接下来的消歧任务中,按照信息函数的打分对不同模糊程度的指称项进行层次化的链接。Info(。)=l。g国Le删n(o(;。):了) (6)式中:Len(o;)为提及0;字符串长度;Count(oj)为提及0:的候选实体数量。该函数的提出基于两点假设:候选实体少的提及信息量较高;字符串较长的提及信息量较高。14层次化实体消歧算法在对训练样本和测试样本提取特征之后,按照图1所描述的算法框架对候选实体进行消歧。(1)冷启动在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 层次 实体 链接 方法 李禹恒
限制150内