生物信息学第八章.doc
《生物信息学第八章.doc》由会员分享,可在线阅读,更多相关《生物信息学第八章.doc(13页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流生物信息学第八章.精品文档.第八章 多序列比对的实际应用Andreas D.BaxevanisGenome Technology BranchNational Human Genome Research InstitudeNational Institutes of HealthBethesda.Maryland在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人
2、们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发
3、生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。渐进
4、比对方法CLUSTAL WCLUSTAL W算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列Bioinformatics: A Practical Guide to the Analysis of genes and ProteinsEdited by A.D. Baxevanis and B.E.E. OuelletteISBN 0-471-191965. pages 172-188. Copyright 1998 Wile
5、y Liss. Inc.的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。这个辅助树,加权后可以证实极相近的序列,然后以双重比对极相近的序列开始,为组建比对提供基础,然后重新比对下一个加入的比对,依次类推。如果加入的序列较多,那么毫无疑问,必须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。在绝大多数情况下,使用者不会在比对时加入结构信息,但是空位开放补偿利用了可以出现在-螺旋或-折叠末端的特殊残基以及空位罚分所偏好的残基,众所周知,这些残基更喜欢显示这个特异性。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,
6、这些空位扩展罚分计算是有位置决定的。为了介绍基于UNIX平台的CLUSTAL W的使用,考虑一下从四种不同物种来源的UIA蛋白(人类,鼠,Xenopus laevis和果蝇)。这四种输入序列放在一个单独的文件中,作成六种可以接受的格式中的一种,然后在UNIX提示符下执行clustalw,用户必须执行命令才会看见主菜单:*CLUSTAL W(1.60) Multiple Sequence Alignments*1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylog
7、enetic trees S. Execute a system commandH. HELPX. EXIT (leave program)Your choice: 1选择菜单中的选项1(Sequence Input From Disc)以输入要比对的序列,选择1后会出现序列输入菜单:Sequences should all be in 1 title.6 formats accepted:NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF.Enter the name of the sequence file:
8、 UIA.seqs系统会提示用户有六种可以接受的格式,然后会提问输入序列的文件名,在这里序列输入文件名为UIA.seqs,一旦输入这个文件名,屏幕上会显示读取文件的过程,然后返回主菜单,这时,用户可以选择选项2进行多序列比对:* MULTIPLE ALIGNMENT MENU *1. DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate) 2. Produce guide tree file only 3. do alignment using old guide tree file 4. Toggle Slow Fast pairwise a
9、lignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = ON8. Toggle screen display = ON9. Output format ooptionsS. Execute a system commandH. HELPor press RETURN to go back to main menuYour choice: 1从这一点看,用户在执行多序列比对时有很多选择的自由,举例来说,在Multip
10、le Alignment Parameters下,用户可以实际空位开放和扩展的罚分,指出在组建辅助树时分歧到什么程度证明可以跳过一个序列,选择一个分值矩阵(BLOSUM或PAM),并且可以选择当一个亲水残基出现(或缺失)在一个特异位点时,是否要执行特异性罚分,如果需要,要罚多少分。在Pairwise Alignment Parameters下,用户可以调整用于慢比对和快比对的罚分和窗口大小。因为在这个例子中,我们没有可以用来指示我们改变比对参数的任何信息,因此只有选择选项1(”Do complete multiple alignment now”)。选择选项1后,程序会在屏幕上显示构件辅助树的
11、过程,然后开始真正的所序列比对。CLUSTA W结束时,会显示最终的比对结果,上述的例子的结果显示在图8.1中。在比对下方,一些位点被标记为星号或圆点,这些标记分别显示这些残基在序列中是绝对或是高度保守的。如果返回的比对出现太多的空位或是不考虑这些蛋白的任何已知信息,用户就可以再修正参数,然后返回程序,看它是否影响最终的比对。CLUSTAL W (1.60) multipls sequence alignmenthum-U1A -MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQmse-U1A MATIATMPVPETRANHTIYIN
12、NLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQxla-U1A -MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQdme-U1A -MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQhum-U1A AFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKPmse-U1A AFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKPxl
13、a-U1A AFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKVdme-U1A AFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPAhum-U1A KSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMIPPPmse-U1A KSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIPPPxla-U1A KVPEVQGVKNAMPGAALLPGVP
14、GQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHJPGMPPPdme-U1A PGTDEKKDKKKK-Phum-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPGmse-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILELTNLPEETNELMLSMLFNQFPGxla-U1A GMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQFPGdme-U1A SSAENSNP-NAQTEQPPNQILFLTNLPE
15、ETNEMMLSMLFNQFPGhum-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKKmse-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKKxla-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKKdme-U1A FKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK图8.1、 以四种 U1A 序列为一系列的输入序列,使用CLUSTAL W多序列比对程序后得到的比对结果。保守性
16、极高的残基位置由星号标记在序列下方的相应位置,保守性稍低的残基由打点标记出来。MultiAlinMultAlin方法也是基于用一系列双重比对开始的思想,然后基于双重比对的打分值进行一个分层次的聚类。当序列都分成类后,开始进行多序列比对,计算出多序列比对中的两个序列比对的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不在上升,此时所序列比对也就结束了。MultAlin可以在INRA Toulouse的一个环球网点上很容易地执行,要比对的序列按照FASTA的格式被粘贴到一个序列输入框内,然后从一系列下拉菜单中,用户定义适当的参数,比如输出格式,可选的输入格式,引用的分值矩阵以及空位
17、开放和扩展罚分的分值。大多数用户只会根据输入序列的远近关系,选择不同的分值矩阵。然后,序列被提交到服务器上,当多序列比对返回时,会计算一个一致序列并显示在比对的下方。举例来说,如图8.1所示的用CLUSTAL W比对的同样的序列被提交给MultAlin服务器,接受缺省的比对参数,其结果如图8.2所示,在一致序列中,所有序列都匹配的残基相应的位置用此残基的大写字母表示,大多数都匹配的用小写字母表示,同样地,符号!、$、%和#分别表示保守取代,具体含义如图8.2上方的图例。很明显,用两种方法分别得到的比对结果并不完全一样。主要区别在于CLUSTAL W在果蝇序列中开放了两个长度超过10的空位,而M
18、ultAlin只开放了一个长空位,而且,MultAlin可以得到比CLUSTAL W多20个完全相同残基的排队,当然,这并不以为这一种方法比另外一种方法优越,这有要重提本书的一个不便的话题,即从输入序列的性质出发,应用不同的方法会得到不同程度的成功。警慎的用户会选择若干个工具同时使用,并且对最终的比对结果作手工修正以期达到最佳效果。模体和样式前面叙述的方法对于多序列比对极为有用,但是用户必须实现搜集好独立的输入序列,要么通过一系列的BLAST或其它的数据库搜索,要么在实验室里直接作出决定。但是,有太多的方法可以获取一个单独的序列,并且基于此序列中的任何模体或样式,返回所有的蛋白质家族,完成某个
19、特异方法所定义的最佳比对。很多时候,这些方法所揭示的距离关系并非从例行的标准的数据库搜索中轻易获取。在这一部分,我们讨论两种方法,都是搜索特殊数据库以获取序列的模体和样式的,当然也是两种从最少的序列信息中进行蛋白质家族分类的强有力的方法。ProfileScan基于经典的头文件分析的Gribskov方法,ProfileScan使用一种称为pfscan的方法寻找一个蛋白质或核酸的查询序列同一个头文件库的相似性,因此,在搜索中需要有两个头文件库:第一个是PROSITE,一个ExPASy数据库,通过使用模体和序列样式(诸如指纹)将生物学意义重大的位点收集分类;第二个是Pfam ,收集了蛋白质结构域家族
20、,与其它收集方法有很大不同的是,最初的蛋白质结构域的比对完全是有手工完成的,而不是依靠自动化的处理方法,正因为这样,Pfam只拥有500多条款目,但这些款目的质量极好。基于PROSITE和Pfam的搜索可以通过访问ProfileScan的主页完成,她只需要一条简单的输入序列(用文本格式),或者一个标号,比如一个SWISS-PROT ID。用户可以选择搜索的敏感度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。为了说明输出的格式,我们现在向PROSITE系统提交人类的热休克诱导蛋白的序列作一次搜索:normalized taw from to Profile | description35
21、5,9801 41556pos 6 - 612 PF00012 | HSP70 Heat shock hsp70 protein 真正返回的PROSITE条目显得并不希奇,输出里含有值得注意的分值,这个前期加工(raw)的分值就是真正由搜索时使用的打分矩阵计算出来的,更信息化的数字是“normalized”,即N值,N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数目,基本上来说,N值越大,偶然发生的命中几率就越小。举例来说,如果N值为355,偶然命中的几率只有1.9410-349。数字“from”和“to”只是显示出查询序列和匹配的头文件重叠的位点。BLOCKSBLOCKS
22、数据库利用了块的概念,对蛋白质家族进行鉴定,而不是只依赖于单个的序列本身。块的思想来源于更加普遍的概念模体(motif),模体通常是指一段氨基酸序列的保守的伸展,拥有一定的蛋白质功能或者结构。当这些来源于同一家族中的蛋白质中的模体比对时(不引入空位),其结果就是块;块就是指比对,而不是序列本身。很明显,任何一个独立的蛋白都可以包含一个或者更多个的块,对应于它的每一个功能和结构模体。BLOCKS数据库本身来源于PROSITE的条目。当使用一个感兴趣的序列进行BLOCKS搜索时,查询序列就会同数据库中所有的块在任何可能的位点进行比对,对于每一个比对都会使用位点特异分值矩阵或者PSSM进行打
23、分。PSSM和这本书前面叙述的分值矩阵(例如BLOSUM62)的重大区别在于,其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的位点的可能性。所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的一个特异位点的几率,这在本部分的结尾就会变的十分明白。BLOCKS搜索可以通过访问西雅图的Fred Hutchinson肿瘤研究中心的BLOCKS主页完成,这个网点很直接,允许执行基于序列或者关键词的检索。如果用户在输入时使用了DNA序列,他就可以指明使用哪个遗传密码,搜索哪条链。不管执行搜索的是一个序列还是一个关键词,成功的搜索将会返回相应的块,图8.3显示了一个例子。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 第八
限制150内