《文本挖掘入门》PPT课件.ppt
《《文本挖掘入门》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《文本挖掘入门》PPT课件.ppt(31页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、文本挖掘入门吴吴 磊磊文本挖掘文本挖掘是利用自动化方法对生物医学文献中的大量可用知识进行开发 文本挖掘工作的动机很多 参与者n模式生物数据库管理者(Model organism database curators)n需要处理大量的出版物,用以不断完善(填充)每一个他们感兴趣的物种基因的字段 n实验室研究人员(Bench scientists)n开发出生物医学文本挖掘应用程序,用于协助解释高通量检测分析的输出和改善序列数据库搜索的工具的开发 n各学科的生物学家 n开展了各种应用研究,用以应对过去数年间的科学文献双指数增长的问题和在PubMed/MEDLINE中搜寻基因组相关文献的问题 一个奇怪的
2、现象 n那些使用率高的,并且对生物学家的工作作出丰富贡献的系统的创建者不是文本挖掘专家,而是生物学家。生物医学领域的三种基本方法 n基于共现的方法 n寻找出现在同一个文本单位(通常是一个句子,但有时也会拓展到一个摘要)中的概念,并设定它们之间的关系 n例如,系统发现BRCA1与乳腺癌在同一个句子中出现,会推测乳腺癌与BRCA1基因间存在某种关系 n早期的生物医学文本挖掘系统都是基于共现的,但这种系统也是非常容易出错的,因此目前已不多见。生物医学领域的三种基本方法 n基于共现的方法 n概念共现被用作评估更复杂的系统时的一个简单基准n关键在于,概念因表达方式的不同而产生的变化性。n例如,BRCA1
3、基因有很多别名包括IRIS,PSCP,BRCAI,BRCC1,或RNF53(或他们拼写变体,包括BRCA1,BRCA-1,与BRCA 1)或任何其全称的变体,如breast cancer 1,early onset,breast cancer susceptibility gene 1,或后者的变种breast cancer susceptibility gene-1。nbreast cancer还可以被称为breast cancer,carcinoma of the breast,或 mammary neoplasm。n这些变异问题的解决依赖于更为复杂的系统。生物医学领域的三种基本方法 n两
4、个更常见(也更复杂)的文本挖掘方法:n基于规则或知识的方法n基于规则的系统利用了某种知识,其可能采取的形式:n如何构造语言的一般知识n如何在生物医学文献中陈述生物学相关事实n生物学概念彼此之间可能存在的关系,及它们可能出现在文献中的变异形式n前述这些形式中的任何一个子集或组合n实际系统构建中综合使用两方面的技术:n固定编码方式:n如:或与相关联来发现研究者感兴趣的对象类别的显式描述。n复杂的语法和语义分析。以识别一个广泛范围内的相关概念的变异形式n基于统计或机器学习的方法 n借助于建立可在各个层级上运算的分类器,标注词性-选择句法分析树-对完整的句子或文档分类。生物医学领域的三种基本方法 n各
5、自优缺点n基于规则的系统开发周期较长(不总是)。n基于统计的系统通常需要大量不易获得的已标注训练数据。n实践中,二者可卓有成效的结合起来n许多系统采用了一个预统计处理步骤,其后是基于规则的后续处理。歧义问题 n定义:语言和语义或词类的多重关系的存在。n是任何类型的系统都必须要面对的一个主要问题。n例如:有关基因的名称和符号nfat:形容词or名词?-查询PubMed-返回112 K的命中结果(即使通过逻辑表达式(gene OR genetic OR genetics)来限制其范围,结果仍会超过13 K)nfat也可以是许多不同物种的基因名或符号n人类,小鼠,大鼠,果蝇,斑马鱼,鸡,猕猴及两个乳
6、杆菌中,至少有一个基因的名字、官方符号或别名是(fat)。歧义问题 n定义:语言和语义或词类的多重关系的存在。n是任何类型的系统都必须要面对的一个主要问题。n即使所指物种能够确定,歧义问题仍可能存在:n人类基因组中:fat既是2195号Entrez基因记录的官方符号,也是948 号Entrez基因记录的官方别名n2195是一个cadhedrin(ca2+-dependent cell adhesion molecule family):钙离子依赖的细胞粘附素家族的粘附分子,与肿瘤抑制和双相性精神障碍有关,n948是凝血酶受体,与动脉粥样硬化、血小板糖蛋白缺乏症、高脂血症及胰岛素耐受性有关。构建
7、系统的第一步:定义目标并检查数据 n良好的软件工程实践将是构建成功的关键 n见下图:表明了可构建在一个表示系统中的语言分析层级 语言分析的层级LocusLink IDMeSH conceptsPart of speech词性NN:单数名词IN:介词 VBZ:第三人称单数一般现在时动词JJ:形容词CC:并列连词构建系统的第一步:定义目标并检查数据 n良好的软件工程实践将是构建成功的关键 n首要关键步骤是定义该系统所需的行为 n考虑这样一个系统,目的是从文本中提取基因/疾病的关系,那么n预期输出是供人使用,或是要令它成为一些后续自动处理步骤的输入?n预期输入是拟从一个数据库提取字,还是摘要或期刊文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本挖掘入门 文本 挖掘 入门 PPT 课件
限制150内