基因芯片数据的聚类分析.pdf
《基因芯片数据的聚类分析.pdf》由会员分享,可在线阅读,更多相关《基因芯片数据的聚类分析.pdf(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、国签匿堂生塑医堂王垂坌避!Q 坚生!旦箜望鲞箜!塑!竺!堡生垦型!坚!竺虹丛型型墅塑型L 生丘塑堕d 业塑尘堕呈基因芯片数据的聚类分析王富刚陈先农【摘要】基因芯片技术是后基因组时代功能基因组研究的主要工具。由于采用了高效的并行D N A杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作。聚类分析是基因芯片数据分析中使用广泛的一类方法。基因芯片实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到生物医学研究中的各个领域。本文介绍了基因芯片数据的聚类分析方法及其重要应用。【关键词】基因芯片;微阵列;基因表达谱;聚类分析中图分类
2、号:R 3 1 8;Q 8 1文献标识码:A文章编号:1 0 0 1 1 1 1 0(2 0 0 4)0 2-0 0 9 8-0 4C l u s t e r i n gi nD N Ac h i pd a t aa n a l y s i sW A N GF u g a n g,C H E NX i a n n o n g I n s t i t u t eo f B i o m e d i c a lE n g i n e e r-i n g,C h i n e s eAc a d e m yo f M e d i c a lS c i e n c e,P e k i n gU n i o
3、 nM e d i c a lC o l l e g e,T i a n j i n3 D D J 9 2,C h i n a【A b s t r a c t】M i c r o a r r a yt e c h n o l o g yi st h ec h i e ft o o lf o rf u n c t i o n a lg e n o m i c sr e s e a r c h A d o p t i n gt h eh i s he l -f i c i e n ta n dp a r a l l e lD N Ah y b r i d i z a t i o nt e c h
4、n o l o g y,w ec a l la c h i e v ea b u n d a n td a t af r o me a c he x p e r i m e n t,S Ot h ed a t aa n a l y s i so fm i c m a r r a y sb e c o m e sac h a l l e n g ea n ds i g n i f i c a n tt a s k C l u s t e r i n gi st h em o s tu s e f u la n dw i d e l yu s e dm e t h o do fm i c r o
5、a r r a yd a t aa n a l y s i s A b u n d a n tu s e f u li n f o r m a t i o nc a nb eo b t a i n e dt h r o u g ht h em i c r o a r r a yc l u s t e r i n g T h e r ea r em a n ys u c c e s s f u le x a m p l e st h a th a v eb e e na p p l i e dt oaw i d eo fr e s e a r c hf i e l d so fl i f es
6、c i e n c e T h er e v i e wp r e s e n t e dt h em e t h o d sa n da p p l i c a t i o n so fc l u s t e r i n ga n a l y s i si nD N Am i c r o a r r a y s【K e yw o r d s】D N Ac h i p;m i c r o a r r a y;g e n ee x p r e s s i o np r o f i l e s;c l u s t e r i n ga n a l y s i s大量原核和真核生物基因组全序列测序的
7、完成,特别是人类基因组序列的获得,为生物医学研究带来挑战和机会,使基因组研究的焦点从测序转到功能基因组的研究,其任务是将生物功能与相应的基因序列对应,这对基因水平上的疾病治疗和新药开发等具有重要意义。基因芯片,或称为微阵列技术的出现,为基因组功能注解带来了光明的前景。它提供了同时检测数千种基因表达水平的方法,现在正广泛应用到生物医药的各个研究领域,成为功能基因组学研究的主要工具。其原理是通过把大量的D N A 片段以可寻址的方式,高密度地固定到一小块载片上,利用核酸碱基之间的配对,用来进行样品D N A 高效、并行的分析 1 。基因芯片的结果分析是其应用中很重要和关键的一步,缺乏聚类分析这样的
8、有效方法,得到的海量数据是根本无用的“天书”。微阵列实验通过分析提取了有用信息后可以帮助确定D N A 中每个基因的角色,理解基因组作为一个整体是如何产生作用的,从而使得人作者单位:3 0 0 1 9 2 天津,中国医学科学院中国协和医科大学生物医学工程研究所们可以从整体上了解生命的某些特征。1 基因芯片数据的获得使用基因芯片可以研究基因表达的不同方面,比如在转录或翻译水平上的表达、基因产物的亚细胞定位。现在主要存在两种基因芯片,分别是由S t a n f o r d 大学B r o w n 和B o t s t e i n 实验室开发出的c D N A 芯片和由A f f y m e t r
9、 i x 公司发展出的高密度寡核苷酸芯片。实验时,首先进行靶标的反转录,转录过程中用不同色的红、绿荧光染料标定实验样品和参照样品,等量混合后与阵列D N A 序列(探针)杂交。竞争性杂交结束后用激光扫描仪扫描芯片,得到T I F F 格式的芯片图像数据文件。芯片图像的分析一般按照以下三个步骤 2 :首先是寻址,即确定图像中属于结果元素点的区域;其次是分割,将上一步形成的目标区域分割成前景和背景两块;最后对每个点抽取荧光强度值的前景和背景值,为确定和消除系统误差源还需要进行(荧光强度)数据归一化,得出阵列中每个点红绿荧光强度的比值。这个比值指示了两种核酸靶标中相应基因的相对丰度,反映了该基因在实
10、验样本中的表达水平。使用 万方数据圉处堡堂生塑匿堂王垂坌盟!Q 坚生兰旦箜!鲞箜!塑!垫竺型型曼型!型坚曼唑妞堕趔型墅!堡!垒P!:!鲤!:!:;9 9 中通常对上述比值进行对数变换。通过微阵列实验,获得了基因表达矩阵,这就是所谓的基因表达谱,是进一步进行生物信息学分析的基础。正常情况下,所得基因芯片图像结果元素点应该形状大小相同,而且同类点的前景或背景相素点强度应该没有差异;而实际情况往往不是这样理想,通常点的大小不同,形状可能成为镰刀形、环形、椭圆形、梨形,或者被刮划、打断,甚至可能被人为污染。B o z i n o v 等 2 分析了多种基因点变体图,提出了图像增强的P A M 方法。2
11、 芯片数据的聚类分析基因芯片的数据分析就是探测相似基因表达谱的过程,以达到对基因功能的判别和分类。目前常用的芯片数据分析方法有直观视图分析、统计学分析和生物学分析。直观视图分析是最简单、直接的方法,通常用散点图(二维或三维)、直方图和饼图直观地显示芯片表达的结果。统计学分析已广泛应用于大规模基因表达的分析。统计分析可以帮助发现新的基因、D N A 序列、基因的突变位点等。目前最广泛使用的一类算法就是聚类分析,是基于相似度的数据项分组方法,可用于观察结果。数据项和特征向量的分组,是一种广泛使用的实验数据分析手段,其分析过程一般包括模式特征抽取、选择,这需要定义合适的特征集;对数据域定义合适的模式
12、近似度度量标准;聚类分组;数据提取;输出结果评估 3 o聚类分析中最具挑战性的一个环节是特征抽取和模式表示。对于基因芯片的分析,由于已经将阵列中每个点数据化,因此这一步的困难大大减轻。模式近似度一般由模式对间定义的距离函数来衡量。有不同定义的距离函数,一般最常用的是欧氏距离。即将m 行n 列的阵列看成m 个n 维向量(根据分析需要,反之亦然),移;,秽,(其中i j m)之间的距离按多维空间中点对间距离定义:r=一曲=毛】(石谴,)2另外还可用相异度衡量,通常是1 减去相关系数P。聚类分组有多种方法,一般分为等级体系聚类(h i e r a r c h i c a lc l u s t e r
13、 i n g,又称系统聚类)和直接划分聚类(p a r t i t i o nc l u s t e r i n g)两种。其中前者通用性好,使用最为广泛,它利用基于相似度的标准来合并或分割簇,产生嵌套的层次系统树图。2 1 系统聚类方法下面结合具体应用中的一个分析例子来说明系统聚类的方法,该例是应用基因表达谱来预测乳腺癌的临床结果 4 。其中采用了系统聚类法基于在大约50 0 0 个主要基因上测得的相似度对9 8 种肿瘤进行聚类分析。基因芯片图像结果的9 8 行代表9 8 种乳腺肿瘤,约50 0 0 个列分别代表了一种重要基因。分别按行和列进行两次独立的聚类。按照汇聚的系统聚类分析,从n 个
14、单个的丛开始,发现和合并最接近的对,得到凡一1 个丛,同时更新相异度矩阵,然后重复合并过程,直到得到一个包含所有n个丛的簇。这样就得到了层层嵌套的系统树图,而合并过程中产生的分隔边界线的长度反映了簇间相异度的大小。同汇聚方式进行的系统聚类分析相对,还可以进行分割方式的系统聚类,其过程就是汇聚方式的逆过程,即从包含整体的一个簇细分,与其他元素间最大相异度的裂片组被分出,然后在得到的所有组中最大的一组重复此过程,直到得到n 个单独的丛。显然,对所举例的分析而言,采用汇聚方式更方便和直观。系统聚类分析法也有其不足的地方。首先,对事先未知分类组数的情况(这是很常见的应用),在决定边界的域值来切割树结构
15、,以此来决定最终分组的数目并得到各个集合的时候,容易产生任意性,很难有客观严格的标准来决定切分方案。H o r i m o t o 等 5 提出了一种方法,在采用系统聚类分析之后,边界由基于统计的参数来自动估计,一定程度上改善了这个问题。另外的缺点是计算复杂度高。因此对大的数据集聚类时将非常耗时。2 2 直接划分聚类法直接划分聚类产生一个单一的分割而不是嵌套的树图,可以避免数据集很大时的计算复杂性。其分类是以最优化局部或者整体的标准函数为依据。根据采用最优化方法的不同又派生出多种方法,其中常见于基因芯片数据分析中的有贝叶斯聚类 6 、逐步聚类(k-m e a n s)分析、自组图分析(s e
16、l f-o r-g a n i z e dm a p,S O M s)c L 8 以及基于图论的聚类等【引。贝叶斯聚类是基于混合分解和模式寻求算法,其思想是认为待聚类的模式符合几种分布中的一种,现在的目标就是求解分布的参数,并确定混合的分布的数目 10 1。万方数据圄处匡堂生塑匡堂王垂坌婴!Q 坚生兰旦筮兰!鲞蔓!翅墅竺鲤堑堂垦!巫!堕竖曼哩地坚鲤垫堂坠堡竺望:叁匹!唑!:望!璺!:!逐步聚类属于平方误差算法,其边界确定方法消除了手工干扰和阈值选取的主观性,采用统计标准的最优化来确定。其作法是首先选取一定数目的簇和簇心作为模式的初始分割;然后为每一个模式选择最近的簇,加入并计算新的簇心,运行直
17、到收敛;如果必要,根据启发式的信息合并或分割簇,重新运行上步 3 1。算法易于实现,对n 个模式,其时间复杂度为D(n)。但其主要问题在于初始分块数目不合适的选取可能导致算法收敛于标准函数的局部极小值,使整体结果不是最优。自组图分析是人工神经网络应用于聚类分析中的例子。它采用的是结构简单的单层竞争性神经网络。模式在输入端引入并与输出结点关联,其间的权重通过学习反复变更,直到达到终止标准。结果是相似的模式被分人同组,并为同一个单位(神经元)所代表。S O M s 法有着和k-m e a n s 相同的不足,在未知分块数目时其初始权重选择很可能不合适而导致产生次优解。另外收敛受到多种参数影响,结果
18、可能不稳定。M a v r o u d i 等【8 提出了改进的S O M s算法,称为s N e t S O M(s u p e r v i s e dn e t w o r ks e l f-o r g a n i z e dm a p),它通过一个动态扩展过程可以自适应地确定分组数目,同时有效地降低了计算代价。基于图论中最小生成树方法的聚类分析,也见于基因芯片的数据分析。其作法是利用最小生成树算法(M S T)将数据建树,然后删去最大边产生聚类 9 1。除了以上几种常见方法,还有进化算法聚类、模拟退火算法聚类等 1 1)。S m e t 等 1 2 1 提出的独特的适应性聚类分析,能够自
19、动探测模式高度相关区域,设定优化的半径包含一定基因来达到分组。这种方法不需要给出分组数目,只需给出一个显著程度,就可以得到具有统计定义的若干簇的集合,而且它没有强迫每个基因都分到组里,这样可以消除一些无关基因的影响,其计算代价也不大,时间复杂度为线性。3 展望基因芯片聚类分析方法已被成功地应用于生命科学中各领域的研究,如生物体基因表达谱与其个体行为关系的研究 1 3 、肿瘤分类 川、用基因表达谱结果预测乳腺癌的复发性 4 、癌症在分子水平上的分类 7 等。它成功地解读了大量生物信息学的数据,成为后基因组时代功能基因研究的重要工具。由于其应用的广泛性,出现了大量可用的聚类分析软件 1 5-1 7
20、】,更加方便了其推广和应用。应该看到,虽然聚类分析是目前基因芯片数据分析中使用最广泛、有效的一类方法,但它主要基于统计学的理论而很少利用到生物领域的知识,这既使结果由于缺乏领域内知识的约束而可能出现不合理性,同时又失去了利用领域内知识优化算法的好处。聚类分析算法的改进应该充分考虑到这一点,充分利用基因的生物学意义,可喜的是越来越多人已经在往这方面发展了。另外,如何有效地对大数据集进行聚类分析也值得特别关注。参考文献lD u d o i tS,Y a n gY H,C a l l o wM J,e ta 1 S t a t i s t i c a lm e t h o d sf o ri d e
21、 n t i f y m。gd i f f e r e n c t i a l l ye x p r e s s e dg e n e si nr e p l i c a t e de D N Ar n i c r o a r r a ye x p e r i m e n t s J S t a t i s t i c aS i n i c a,2 0 0 2 1 2:l l1-1 3 9 2B o z i n o vD,R a h n e n f u h r e rJ U n s u p e r v i s e dt e c h n i q u ef o rr o b u s tt a r
22、g e ts e p a r a t i o na n da n a l y s i so fD N Am i c r o a r r a ys p o t st h r o u s ha d a p t i v ep i x e c l u s t e r i n g J B i o i n f o r m a t i c s,2 0 0 2,1 8:7 4 7 7 5 6 3J a i nA K,M u r t yM N,F l y n nP J D a t ac l u s t e r i n g:Sr e v i e w J A C MC o m p u t i n g S u r v
23、 e y s 1 9 9 9,3 1:2 6 4 3 2 3 4v a n tV e e rL J,D a lH,v a nd eV i j v e rM J,e ta 1 G e n ee x p r e s s i o np r o f i l m gp r e d i c t sc l i n i c a lo u t c o m eo f b r e a s tc a n c e r J N a t u r e,2 0 0 2,4 1 5:5 3 0-5 3 6 5H o r i m o t okT o hH S t a t i s t i c a le x t i m a t i o
24、 no fc l u s t e rb o u n d a r i e si ng e n ee x p r e s s i o n p r o f i l e d a t a J B i o i n f o r m a t i c s,2 0 0 1。1 7:1 1 4 3-1 1 5 1 6M e d v e d o v i cM,S i v a g a n e s a nS B a y e s i a ni n f i n i t em i x t u r em o d e lb a s e dd I 域e I i I l g0 f 萨既雕喇o np n】6:l e s J B i o
25、i n f o n m t i c s,2 0 0 2,1 8:11 9 4 1 2 0 6 7G o l u bT R,S l o n i mD K,T a m a y oP,e ta 1 M o l e c u l a rc l a s s i f i c a t i o no fc a n c e r:c l a s sd i s c o v e r ya n dc l a s sp r e d i c t i o nb y g e n ee x p r e s s i o nm o r t i t o r i n g J S c i e n c e,1 9 9 9,2 8 6:5 3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因芯片 数据 聚类分析
限制150内