文本特征提取技术03.ppt
《文本特征提取技术03.ppt》由会员分享,可在线阅读,更多相关《文本特征提取技术03.ppt(57页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、文本特征提取,2019/7/10,五校联合 大数据分析硕士培养,非结构化数据分析,主要内容,2019/7/10,非结构化数据分析,文本表示特征提取特征权重,文本表示,第一讲:文本挖掘简介,2019/7/10,非结构化数据分析,文本表示及文本预处理,2019/7/10,非结构化数据分析,去掉html一些tag标记停用词(stop words)去除、词根还原(stemming)(中文)分词、词性标注、短语识别、词频统计(TFIDF)数据清洗:去掉噪声文档或文档内垃圾数据,向量空间模型G.Salton,1971,2019/7/10,非结构化数据分析,向量空间模型(Vector Space Model
2、)自然语言处理常用模型基本概念文档(Document):句子、段落、整篇文章特征项(Term/Feature):词根/词/短语/其他项的权重(Weight):每个特征项在文档中的重要程度。, 1 = 1 ( 11 , 12 , 1 ) 2 = 1 ( 21 , 22 , 2 ),VSM示意图数据结构化一般思路,2019/7/10,非结构化数据分析,VSM示意图,相似度比较内积计算Cosine计算,2019/7/10,非结构化数据分析, 1 , 2 = =1 1 , 2, 1 , 2 =cos= =1 1 , 2 =1 1 2 =1 2 2,文本表示注解,2019/7/10,非结构化数据分析,文
3、本表示注解,2019/7/10,非结构化数据分析,用单个汉字(对应英语语系中的字符串)做特征,不考虑词语的含义。直接利用汉字在文本中出现的统计特性对文本进行划分;直观明了,且操作简单,尤其对于英文文本或其他西语文本的划分非常容易,计算机可以直接利用空格进行分隔。但是基于单个汉字表示方法往往无法很好的代表语义信息。比较之下,使用词做特征成为一种更好的选择。词是中文语义的最小信息单位,词可以更好的反映句子中的信息,但是分析难度也提升了。以中文文本为例,词与词之间没有明确的分隔标记,计算机无法自动识别词语的边界,因此正确分词是这种表示方法的关键。该方法比较常用。,文本表示注解,2019/7/10,非
4、结构化数据分析,词性(Part Of Speech,POS)作为特征可以更好的识别词语之间的关系。让计算机来自动地给文本中的词标注词性,然后利用词性进行词义分析。如:什么样的名词经常和什么样的动词同时出现,这对于词语之间关系的研究开拓了新的思路。词性标注技术的成熟为词组组块(Phrase Chunking)的界定与实体及关系(Entities and Relationship)的识别打下了良好的基础,有利于我们更深入的探索文本语义的信息。且词组的形式提高了特征向量的语义含量,使得向量更稀疏。近年来,词性标注(POS-tagging)、词组组块(Phrase Chunking)、实体及关系(En
5、tities and Relationship )相关的研究也开展了很多,取得了很多可喜的成果,有兴趣的读者可以参考后面所附的文献进行深入学习。,特征权重,2019/7/10,非结构化数据分析,特征权重,2019/7/10,非结构化数据分析,衡量某个特征项在文档表示中的重要程度或者区分能力的强弱更好的对文本进行表示一般利用文本的统计信息:词频,常用的权重计算方法,2019/7/10,非结构化数据分析,布尔权重 = 1,0 绝对词频 TF = 倒排文档频度(IDF) = TF-IDF = TF-IWF = ( =1 ) 2 : 训练集中出现特征 的文档数 :特征 在训练语料中出现的次数,TF-I
6、DF 例子 ( Salton et al.,1983 ),2019/7/10,非结构化数据分析,假设抓取了来自门户网站“经济”“娱乐”“科技”三个版块各300篇文章,其中有一篇文章,共有100个词,其中“粒子”“和”“应用”三个词分别出现了 5次、35次和15次,我们想将该文档进行归类,看它属于“经济”“娱乐”“科技”文档中的哪一类。初步分析认为,“粒子”、“应用”两个词应该对文章分类的作用较大,而“和”对于文章的分析意义不大。 更进一步的,如果目标是进行文档的归类,有理由认为“粒子”一词对于该文章的归属的贡献要高于“应用”。“应用”一词的专业性不及“粒子”。,TF-IDF 应用举例,2019
7、/7/10,非结构化数据分析,但是如果只关注词频 ,“应用”一词的权重更高。这时候,可以利用IDF的计算公式进行权重的处理,计算三个词的文档频率和文档逆频率,假设50篇文章中出现了“粒子”一词,450篇文章中出现了“应用”一词,900篇文章中均出现了“和”这个词语。那么采用TF*IDF方法计算得到的权重如下:,特征权重注解,2019/7/10,非结构化数据分析,特征加权方法最初用于信息检索,特征加权主要有三个层次,局部加权、全局加权和标准化(Chisholm et al.,1999)。一般化的特征加权表示式如下: 是词语w在文档d中的局部权重。 是词语w在文档集合中的全局权重, 是文档d的标准
8、化因子。局部加权仅使用词语在文档中出现的统计量,而全局加权则使用整个数据集中的统计量进行计算。,特征提取,2019/7/10,非结构化数据分析,特征提取的意义,2019/7/10,非结构化数据分析,文本集合包含的特征太多10,000 1,000,000 unique words and more特征减少后,某些算法才能使用有些分类方法无法处理1,000,000以上的特征减少训练时间有些分类方法的训练时间与特征个数的平方成正比,或更糟使预测模型更快、更小能提升总体性能Eliminates noise featuresAvoids overfitting,特征提取思路,2019/7/10,非结构化
9、数据分析,特征选择(Feature Selection)文档频率信息增益卡方统计量互信息特征重构(Re-parameterisation)潜在语义分析,文档频率(Document Frequency,DF),2019/7/10,非结构化数据分析,文档频率(DF)指文本数据中包含某个词条的文档的个数。通过文档频率进行特征选择就是按照文档频率的大小对词条进行排序,将文档频率小于某一阈值的词删除,从而降低特征空间的维数。,文档频率,2019/7/10,非结构化数据分析,基于DF的启发式要点太频繁的词项没有区分度, DF大于某个阈值去掉太稀有的词项独立表达的类别信息不强稀有词项的全局影响力不大在训练集
10、中,某些文档如果有某个稀有词项,它们通常也会有一些常见词项(对那一类)和通常信息获取观念有些抵触:稀有的更有代表性(这是一种ad hoc方法,不依据什么理论)最容易实现,可扩展性好,文档频率,2019/7/10,非结构化数据分析,Baeza-Yates and Ribeiro-Neto(1990)研究表明,若一个特征在语料集80%的文档中都出现了,它对于分类来说是无意义的。这样的词语主要是指停用词等,通过对这部分词语的压缩,可以使特征向量空间压缩到原始的40%或者更多。对于出现频率过低的词语,考虑到增加一个变量对于现实带来的成本,一般不利用这样的词语,而是尽可能少的选取其他词条。Yang an
11、d Pedersen(1997)试验表明:在分类效果没有变差的前提下将特征空间的维数约减为原来的1/10是可能的,约减为1/100所带来的损失很小。,熵,2019/7/10,非结构化数据分析,对分类系统来说,文档类别C的可能取值是每一个类别出现的概率是 为类别的总数,熵定义为:,熵/ 平均熵,2019/7/10,非结构化数据分析,在观察到特征项 以后,文档落入某个文档类的概率就应该是条件概率 此时系统的熵为:该特征项的熵:该值越大,说明分布越均匀,越有可能出现在较多的类别中;该值越小,说明分布越倾斜,特征项可能出现在较少的类别中,信息增益(Information Gain, IG),2019/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 特征 提取 技术 03
限制150内