基于微博文本数据分析的社会群体情感可视计算方法研究-刘翠娟.pdf
《基于微博文本数据分析的社会群体情感可视计算方法研究-刘翠娟.pdf》由会员分享,可在线阅读,更多相关《基于微博文本数据分析的社会群体情感可视计算方法研究-刘翠娟.pdf(9页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、北京大学学报(自然科学版)第52卷第1期2016年1月Acta Seientiarum Naturalium Universitatis Pekinensis,V0152,No1(Jan20 1 6)doi:1013209j047980232016021基于微博文本数据分析的社会群体情感可视计算方法研究刘翠娟1,2刘箴1,+柴艳杰1方昊1刘良平11宁波大学信息科学与工程学院,宁波315211;2浙江万里学院智能控制研究所,宁波315100;t通信作者,Email:liuzhennbueducn摘要 针对已有的情感分析研究多侧重在情感的倾向性方面,缺乏对各类情感的详细描述,不能形象直观地反映社会
2、群体的情感变化的问题,提出一种基于依存句法和人工标注相结合的情感分析方法。该方法采用三维立体的人脸表情进行情感分析,形象地呈现社会群体的情感变化。对于不同的社会事件,以可视化方式来展现不同地区微博群体的情感。实验结果表明,该模型可以有效地描述人群情感,研究结果为基于大数据的网络舆情分析提供了一种新思路。关键词 文本分析;微博;情感分析;可视计算中图分类号TP391Research on the Visualization Method of Social Crowd EmotionBased on Microblog Text Data AnalysisLIU Cuijuanl”,LIU Zh
3、enlI,CHAI Yanjiel,FANG Ha01,LIU Liangpin911Faculty of Information Science and Technology,Ningbo University,Ningbo 3 1 52 1 1;2Intelligent Control Research Institute,Zhejiang Wanli University,Ningbo 315100;t Corresponding author,Email:liuzhennbueducnAbstract Existing sentiment analysis focus on the e
4、motional tendencywhich are lack of detailed description ofall kinds of emotions,they cant intuitively reflect the emotional change of social groupsAn emotional analysismethod based on the combination of dependency parsing and artificial tagging was proposedFacial expressionanimation to present emoti
5、ons analysis was realizedThe microblog crowds emotion in different areas for differentsocial events was visualizedThe experimental results show that the model could closely and effectively simulatethe crowd emotion,and it could provide a new way of the analysis of network public opinion based on lar
6、ge dataKey words text analysis;microblog;sentiment analysis;visual computing随着移动互联网的发展,社会媒体成为人们表达情感的重要载体。微博作为传播较广泛的社会媒体,已经成为了解民众情感的重要渠道。面对既庞大又看似杂乱无章的微博数据,如何有效地通过已有数据提取有价值的信息进而分析网络舆情【11,并以更加清晰的方式呈现,成为当前备受关注的重要研究领域。虽然关于文本的情感倾向性研究已取得不少成果,但是社会媒体群体情感可视分析方面的相关研究很少见。本文首先对基于微博的文本情感分析和大数据的可视化进行综述。然后给出微博文本的情感
7、计算模型,提出一种基于依存句法和人工标注相结合的情感分析方法,并以三维立体的人脸表情呈现群体情感。最后结合微博文本分析实验,说明群国家自然科学基金(61373068)、宁波市科技计划项111(2015A610128,2015C50053,2015D10011,2014C50018)、高等学校博士学科点专项科研基金(20133305110004)和浙江省教育厅科研项目(Y201431792)资助收稿日期:20150619;修回日期:20150915;网络出版日期:20150929178万方数据刘翠娟等 基于微博文本数据分析的社会群体情感可视计算方法研究体情感分析的思路。本文从社会计算的视角进行群
8、体情感分析,针对特定话题,从微博等社会传感网络获取所关注的社会信号,从中提取感兴趣的社会事件信息。本文研究结果可为深入开展微博群体情感分析研究提供一种新的视角。1相关研究关于微博情感分析的研究已经积累了很多工作。基于机器学习的方法把文本情感分析看做分类问题,采用朴素贝叶斯、K最邻近、支持向量机和条件随机场等算法构造分类器,通过对训练集的特征进行学习来构造模型。从监督微博群体情感的视角,情感分析的计算效率较高。采用机器学习的方法,由于需要训练大量的样本【21,对技术速度要求较高。因此,采用基于情感词匹配的方法并结合句法分析(syntactic parsing)成为群体情感计算的有效途径。Caro
9、等【3】提出一个模型,通过语义理解分析用户的情感,并借助数据可视化展现情感的正负强度。Loia等【4】提出一个提取情感的框架,采用四维情感层次,利用同义词集合计算情感的相似度,结合模糊集的语义模式计算情感强度。实验证明,此框架能很好分析文本中情感的极性。Wang等【5】提出一个交互的可视化系统,用于分析互联网上用户的群体情感,采用细胞自动机模型比较时变特性,可以适用不同的社交平台。关于情感原因的检测,Lee等16J提出一个文本驱动的、以规则为基础的情感原因的检测方法,构建了一个情感原因标注语料库和检测系统,经验证,取得显著效果,有助于分析和语言建模。在情感标注方面,Mohammad等【7】关注
10、词的情感与词的极性相结合,生成一个大规模词J隋感的联合词汇,并考虑8种基本情绪,使用自动生成的词选择题来进行情感标注,取得较好效果。Francisco等8提出一种自动标注情感的方法,该方法考虑情感类别和情感维度,通过情感本体进行分层分类来描述通用情感和特定情感,为情感标注提供了一种有效的手段。冯时等9】提出一种基于句法依存分析技术的算法,考虑情感关系对中的依存距离,并通过建立原型系统实现情感倾向的搜索结果。徐琳宏等【10】构造情感词汇本体,从情感类别、强度和极性三方面来描述词汇。可视化是一种大数据分析的重要方法,可以对数据进行推理,进而展示隐含的数据模式【11】。可视化数据的基本原理是让数据用
11、某种可视化方式呈现(如图形、图表、地图等),使人们能够更加直观地发现庞大数据内部隐藏的规律,进而得出结论,并且能够直接与数据进行交互。Zhang等【12】使用5Ws数据维度进行大数据分析和可视化,证明大数据可视化可以揭示数据接收和发送的密度,从密度视角分析大数据的特征。Mukhopadhyay等【1 3】将可视化应用于生物医学领域,通过多路结构图,从生物文本中提取重要信息,有助于理解基因和疾病的关系。可视界面是直观了解海量社会媒体信息的重要工具。利用可视化工具对微博数据进行可视分析有助于更好地发现微博的数据规律,具有广阔的发展前景。微博数据的可视化方面主要有以下几种方式:标签云与Wordle、
12、图表、网络、地图等。Zhang等【14】提出一个电子云模型(ECM)来分析微博的情感,将情感映射到电子的稳定性,通过核密度和边界绑定表述情感的空间变化。数据可视化为微博的深入研究开辟了一条新径,具有深远的理论指导意义和实践意义。综上所述,关于微博情感分析的可视研究虽然已取得可观的成果,但还存在一些问题。1)已有的研究多侧重在情感倾向性上,缺乏对各类情感的详细描述。对于社会事件,人们更希望了解不同负面情感的强度,这方面研究尚不多见。2)在情感分析中,已有研究对于情感词强度没有给出具体的量化方法,仅用级别代替。3)现有的社会媒体可视研究大多停留在线条图形,可视效果欠缺。鉴于以上不足,本文针对社会事
13、件,从多情感视角分析群体情感。在情感词的强度上,采用模糊集合理论,给出情感词的量化描述;在可视效果上,采用人脸表情呈现情感,实现更加逼真的情感表现方式。2微博文本的情感计算模型微博文本的情感计算模型采用三元组表示:EModel=为情感词,n为情感词个数;C-为情感词的类别,共6类;E(0,1)为情感词的情感强度。微博文本的情感计算模型如图1所示。模型的算法步骤如下。1)对于收集的微博文本,首先进行句法分析,对微博文本进行预处理。2)抽取并统计情感句数目,根据句中情感词的强度,计算每个情感句的初始值。如句子结尾有感179万方数据北京大学学报(自然科学版)第52卷第1期 2016年1月; 回 圃l
14、,:二二:二二:习:巧:三JH日句法分析I牟令I句法分析器 去停用词。jji移一jj。j 一J感计算 抽取情感关系对组 l-_拉斗Ijl I寄纠 t “-白I U V计算情摩强度I毒l情感词典I=令l统计分析Ijor :|l咖。土mI-I:修正情感词 甘;l一一情感强度 il否定词表l几U t 更新情感句 、|情盛强度 I句子fII摩I。:蕊:。:倪1屯 情感的 情感的 情感的时问变化 位置分布 表情呈现圈1微博文本情感计算技术路线Fig1 Affective computing technique route of micro blog text叹号,则句子的情感强度按照15倍计算;如果有疑
15、问号,则句子的情感强度按照08倍计算。对于表情符号,可以采用类似的思路,并将最终的句子情感强度进行归一化处理。3)以情感句中的每一情感词为单位,抽取关系对组,并计算出每个情感词的原始值(Pf)。4)对于每个情感词的关系对组(包括转化后的ADV依存对),结合程度副词和否定副词修饰强度的变化,构造情感强度的修正公式,计算其依存修饰后的情感值。新的公式计算出的情感值仍在O1之间。5)结合情感旬分析,计算微博文本中的各类情感强度值,结果呈现为二元组:EGloup=,分别表示前项词号、前项词、前项词性、后项词号、后项词、后项词性和初始强度。本实验关注以下形式的关系对:情感词为后项词,前项词中出现副词或者
16、否定词的关系对。我们依据式(2)修正该关系对的强度。微博情感可视化编程环境为Windows 81,采用的工具为vs2013,可视化编程接口为directx 11,用3dmax 2009进行地图制作。42实验数据采集本文的实验数据包括微博内容和微博评论。微博内容包括“招远围殴凶杀”、“事业单位打破终身制”、“大老虎”、“世界杯”、“高考生夺刀救人”等社会事件。为了验证本文提出的方法,通过腾讯和新浪微博的API接El,抓取大量社会事件的微博数据。这些数据是去重(过滤掉重复)后的数据,避免万方数据刘翠娟等 基于微博文本数据分析的社会群体情感可视计算方法研究同一个博主所发信息被多次采集。在调查初始情感
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 数据 分析 社会群体 情感 可视 计算方法 研究 刘翠娟
限制150内