《序列比对》PPT课件.ppt
《《序列比对》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《序列比对》PPT课件.ppt(166页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第五章第五章 序列比对序列比对2023/2/1BIOINFORMATICSBIOINFORMATICS1本本章章提提要要:介绍了序列相似性的概念,列举了描述DNA和蛋白质序列相似性的计分矩阵。介绍了序列比较的基本操作“比对”的概念,以双序列 比 对 为 例 详 细 学 习 了 序 列 整 体 比 对 的Needleman-Wunsch算法,序列局部比对的Smith-Waterman算法。介绍了多序列比对的概念,简要介绍了几种多序列比对的算法,学习了一个常用的多序列比对软件ClustalW的使用和用途。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院2
2、 序列比较是生物信息学中最基本、最重要的操作,通过序列比较可以发现生物序列中的功能、结构和进化的信息。序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院3 在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。通过比较未知序列与已知序列(尤其是功能和结构已知的序列)之间的相似性,可以很容易地预测未知序列的功能。2
3、023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院4 这种方法在大多数情况下是成功的,当然,也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。这里先不考虑空间结构或功能的相似性,仅研究序列的相似性。研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院5 序列比较可以分为4种情况:(1)、假设有两条长度相近的、来自同一个字母表的序列,它们之间非常相似,仅仅有一些细微的差别,例如字符
4、的插入、字符的删除和字符替换,要求找出这两条序列的差别。这种操作实际应用比较多,例如,有两个实验室同时测定某个基因的DNA序列,其结果可能不一样,需要通过序列比较来比较实验结果。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院6(2)、假设有两条序列,要求判断是否有一条序列的前缀与另一条序列的后缀相似,如果是,则分别取出前缀和后缀。该操作常用于大规模DNA测序中序列片段的组装。(3)、假设有两条序列,要求判断其中的一条序列是否是另一条序列的子序列。这种操作常用于搜索特定的序列模式。(4)、假设有两条序列,要求判断这两条序列中是否有非常相似的子序列。这
5、种操作可用于分析保守序列。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院7 当然,进行序列比较时,往往还需要说明是采取全局比较,还是采取局部比较。全局比较是比较两条完整的序列,而局部比较是找出最大相似的子序列。本章着重介绍通用的序列比较方法。了解序列比较的原理对于正确、合理、灵活地使用相关生物信息学资源和软件有重要的指导意义。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院85.1序列的相似性序列的相似性5.1.1 几个基本概念几个基本概念 序列的相似性可以是定量的数值,也可以是定性的描述。相似度是一个数
6、值,反映两条序列的相似程度。关于两条序列之间的关系,有许多名词,如相同、相似、同源、同功、直系同源、并系同源等。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院9 在很多时候,往往通过一个简单序列相似性的比较就可以对未知序列进行初步的功能预测,为后续实验确定初步的研究方向。本节将主要讲述如何采用生物信息学技术对核酸序列进行较为全面的分析。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院10 在 进 行 序 列 比 较 时 经 常 使 用“同 源”(homology)和“相似”(similarity)这两个概
7、念,这是两个经常容易被混淆的不同概念。两条序列同源是指它们具有共同的祖先。在这个意义上,无所谓同源的程度,两条序列要么同源,要么不同源。而相似则是有程度的差别,如两条序列的相似程度达到30或60。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院11 一般来说,相似性很高的两条序列往往具有同源关系;但也有例外,即两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素所产生的,这在进化上称为“趋同”(convergence),这样一对序列可称为同功序列。直系同源(orthologous)序列是来自于不同种属的同源序列,而并系同
8、源(paralogous)序列则是来自于同一种属的序列,它是由进化过程中的序列复制而产生的。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院125.1.2 点标方法分析两序列间的相似性点标方法分析两序列间的相似性 点标(dot plot)是两序列对位排列中最基本也是最直观的方法。设序列A和B的长度不同,但很接近。我们可以用二维坐标来标定每个位点上的对位情况。如图5-1所示,序列A为X轴,序列B为Y轴。如AiBj,,坐标(i,j)处赋值为“*”,其余赋值为“空白”。逐个比较所有的字符对,最终形成点阵列。图5-1 序列比对的点阵图方式2023/2/1BI
9、OINFORMATICSBIOINFORMATICS 数理与生物工程学院14 显然,如果两条序列完全相同,则在点矩阵主对角线的位置都有标记;如果两条序列存在相同的子串,则对于每一个相同的子串对,有一条与对角线平行的由标记点所组成的斜线,如图5.2中的斜线代表相同的子串“ATCC;而对于两条互为反向的序列,则在反对角线方向上有标记点组成的斜线,如图5.3所示。图5-2 相同子串点阵图图5-3 反向序列点阵图图5-4 多个相同连续子串序列的点阵图2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院18 除非已经知道待比较的序列非常相似,一般先用点矩阵方法比较
10、,因为这种方法可以通过观察阵列的对角线迅速发现可能的序列比对。两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。当对比较长的序列进行比较时,这样的点阵图很快会变得非常复杂和模糊。使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院19 假设窗口大小为10,相似度阈值为8。首先,将X轴序列的第110个字符与Y轴序列的第110个字符进行比较。如果在第一次比较中,这10个字符中有8个或者8个以上相同,那么就在点阵空间(1,1)的位置画上点标记。然后窗口沿X轴向右移动一个字符的位置,比较X轴
11、序列的第2 11个字符与Y轴序列的第110个字符。不断重复这个过程,直到X轴上所有长度为10的子串都与Y轴第110个字符组成的子串比较过为止。然后,将Y轴的窗口向上移动一个字符的位置,重复以上过程,直到两条序列中所有长度为10的子串都被两两比较过为止。基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且可以明确地指出两条序列间具有显著相似性的区域。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院20 以上讨论了如何利用单元矩阵来构建点阵图。更加复杂的点阵图可基于不同的计分规则而构建。这些计分规则规定了不同残基之间相似性程度的分值。例如,可以根据不
12、同残基之间在进化关系、空间结构、理化性质等方面的相似性来规定它们之间的相似性分数值。在这种情况下,由于点阵图不只是简单的稀疏矩阵,那些非主对角线点的信号和噪声同时得到放大,所以噪声过滤就变得十分重要。常用的方法是引入滑动窗口作为平滑函数提高点阵图的信噪比。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院215.1.3 描述相似性的记分矩阵描述相似性的记分矩阵 如果序列比较仅仅取决于序列间严格一致的区域,那么我们可以将其转化为一种极为简单的程序。然而,大多数序列对位排列不是仅仅限制在子序列的范围内,而是涉及全长序列的比较。有时,也不能简单理解为如何减少
13、间隔的数目,而要同时考虑对位排列后序列的生物学意义。例如,某些氨基酸有时应放在非严格一致的位置。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院22 记分矩阵方法(scoring matrix)被广泛应用于评价序列对位排列的质量。通常使用得分()、无分(0)或罚分(-)来进行综合评价。考虑未匹配和间隔的罚分以及权重不均衡等因素,记分矩阵就更加复杂。人们已提出各种各样的记分矩阵来进行不同目的序列对位排列。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院23 不同类型的字符替换,其代价或得分是不一样的,特别是对
14、于蛋白质序列。某些氨基酸可以很容易地相互取代而不用改变它们的理化性质。例如,考虑这样两条蛋白质序列,其中一条在某一位置上是丙氨酸,如果该位点被替换成另一个较小且疏水的氨基酸,比如缬氨酸,那么对蛋白质功能的影响可能较小;如果被替换成较大且带电的残基,比如赖氨酸,那么对蛋白质功能的影响可能就要比前者大。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院24 直观地讲,比较保守的替换比起较随机替换更可能维持蛋白质的功能,且更不容易被淘汰。因此,在为比对打分时,我们可能更倾向对丙氨酸与缬氨酸的比对位点给予一定的奖励,而对于丙氨酸与那些大而带电氨基酸(比如赖氨酸
15、)的比对位点则相反。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院25 理化性质相近的氨基酸残基之间替换的代价显然应该比理化性质相差甚远的氨基酸残基替换得分高,或者代价小。同样,保守的氨基酸替换得分应该高于非保守的氨基酸替换。这样的打分方法在比对非常相近的序列以及差异极大的序列时,会得出不同的分值。这就是提出得分矩阵(或者称为取代矩阵)的原由。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院26 在得分矩阵中,详细地列出各种字符替换的得分,从而使得计算序列之间的相似度更为合理。在比较蛋白质时,我们可以用得
16、分矩阵来增强序列比对的敏感性。得分矩阵是序列比较的基础,选择不同的得分矩阵将得到不同的比较结果,而了解得分矩阵的理论依据将有助于在实际应用中选择合适的得分矩阵。以下介绍一些常用的得分矩阵或代价矩阵。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院275.1.3.1 核酸得分矩阵核酸得分矩阵 设核酸序列所用的字母表为A=A,C,G,T。(1)等价矩阵等价矩阵 等价矩阵(见表5-1)是最简单的一种得分矩阵,其中,相同核苷酸匹配的得分为“1”,而不同核苷酸的替换得分为“0”(没有得分)。2023/2/1BIOINFORMATICSBIOINFORMATIC
17、S28ATCGA1000T0100C0010G0001表5-1 等价矩阵2023/2/1BIOINFORMATICSBIOINFORMATICS29(2)BLAST矩阵矩阵 BLAST是目前最流行的核酸序列比较程序,表5-2是其得分矩阵。这也是一个非常简单的矩阵,如果被比较的两个核苷酸相同,则得分为“5”,反之得分为“-4”。ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45表5-2 BLAST矩阵2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院30(3)转换)转换颠换矩阵颠换矩阵 核酸的碱基按照环结构分为两类,一类是嘌呤(腺嘌
18、呤A,鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C,胸腺嘧啶T),它们的碱基只有一个环。如果DNA碱基的变化(碱基替换)保持环数不变,则称为转换(transition),如AG,CT;如果环数发生变化,则称为颠换(transversion),如AC,AT等。在进化过程中,转换发生的频率远比颠换高,而表5-3所示的矩阵正好反映了这种情况,其中转换的得分为“-1”,而颠换的得分为“-5”。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院31ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51表5-3 转移矩阵2023/2/1BIO
19、INFORMATICSBIOINFORMATICS32蛋白质得分矩阵蛋白质得分矩阵氨基酸名称氨基酸名称英文缩写英文缩写简写简写氨基酸名称氨基酸名称英文缩写英文缩写简写简写甘氨酸GlyG丝氨酸SerS丙氨酸AlaA苏氨酸ThrT缬氨酸ValV天冬酰氨AsnN异亮氨酸IleI谷氨酸GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF组氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW赖氨酸LysK半光氨酸CysC精氨酸ArgR表5-4给出了20种氨基酸的英文缩写:表5-4 20种氨基酸的英文缩写2023/2/1BIOINFORMATICSBIOINFORMATI
20、CS 数理与生物工程学院33(1)等价矩阵 其中,Rij代表得分矩阵元素,i、j分别代表字母表第i个和第j个字符。2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院34(2)遗传密码矩阵GCM GCM矩阵通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子变化数目而得到,矩阵元素的值对应于代价。如果变化一个碱基,就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院35 如果需要两个碱基的改变,则替换代价为2;以此类推(见表5-
21、5)。注意Met到Tyr的转变是仅有的密码子三个位置都发生变化的转换。在表5-5中,Glx代表Gly、Gln或Glu,而Asx则代表Asn或Asp,X代表任意氨基酸。GCM矩阵常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对尤其是相似程度很低的序列比对中很少被使用。ASGLKVTPEDNIQRFYCH M W ZBXAla=A01122111112222222222222Ser=S10112211221121111221222Gly=G11022122112221221221222Leu=L21202121222111122111222Lys=K222202
22、12121111222212122Val=V12112022112122122212222Thr=T11221201221121222212222Pro=P11212210222211222122222Glu=E12121122012212222222122Asp=D12122122101222212122212Asn=N21221212210122212122212Ile=I21211112221021122212222Gln=Q22211221122201222122122Arg=R21111211222110221111222Phe=F21212122222122011222222Tyr
23、=Y21222222211222101132212Cys=C21122222222221110221222His=H22212221211211212022212Met=M 22211112222121232202222Trp=W 21112222222221221220222Glx=Z22221222122212222222122Asx=B22222222211222222222212X22222222222222222222222表5-5 遗传密码矩阵GCM2023/2/1BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院37(3)疏水矩阵 该矩阵(见表5-6)是
24、根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。RKDEBZSNQGXTHACMPVLIYFWArg=R 10 10998866655555433333210Lys=K 10 10998866655555433333210Asp=D9910 108876665555544433321Glu=E9910 108876665555544433321Asx=B888810 1088887777666555443Glx=Z888810 1088887777666555443Ser=S66778810 10 10 109999
25、887777664Asn=N66668810 10 10 109999888777664Gln=Q66668810 10 10 109999888777664Gly=G55668810 10 10 109999888877665?=X555577999910 10 10 10998888775Thr=T555577999910 10 10 10998888775His=H555577999910 10 10 10999888775Ala=A555577999910 10 10 10999888775Cys=C4455668888999910 109999885Met=M 33446688889
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列比对 序列 PPT 课件
限制150内