生物信息学概论第五章基于特征的系统发生分析ppt课件.ppt
《生物信息学概论第五章基于特征的系统发生分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学概论第五章基于特征的系统发生分析ppt课件.ppt(55页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目第五章第五章:基于特征的基于特征的系统发生分析系统发生分析认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目本章内容本章内容简约法简约法信息位点与非信息位点信息位点与非信息位点特征数据特征数据无权简约法与加权简约法无权简约法与加权简约法算法算法推断出祖先序列推断出祖先序列一致树一致树树的置信度树的置信度各种系统发生分析方法的比较各种系统发生分析方法的比较分子系统发生分析分子系统发生分析认识到了贫困户贫困的根本原
2、因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目基于距离的方法“着眼于大的全景”,却忽略了许多潜在的有用信息。所有这些有用的信息是遗传分类学家关注的焦点,并且引起了挑战性的(但是能解决的)计算问题,这些问题引起了很多程序员的兴趣因为基于距离的方法和基于特征的方法所采用的分析有着本质上的区别,所以它们关于进化关系结论的一致性一致性可以看作是对一棵系统发生树的正确性的积极认可。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目分子系统发生分析主要分成三个步骤:(1)分子序列分子序列或特征
3、数据特征数据的分析;(2)系统发生树的构造;(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统发生树提供依据。数据数据系统发生树系统发生树检验检验生物体生物体信息信息位点位点简约简约法法树的置树的置信度信度认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目构成系统发生树的分子数据:特征数据特征数据基于特征特征的系统发生分析距离数据距离数据基于距离距离的系统发生分析认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目5.1 简约法简约法
4、简约法的概念是所有基于特征特征的系统发生树重建方法的核心核心在生物学中,描述按照进化途径中突变事件最少的标准来优先选择一个进化途径的过程。两个简单假设:(1)突变是罕见事件罕见事件;(2)一个模型引发了越不合理越不合理的事件,这个模型就越不可能是正确的越不可能是正确的。因此,因此,突变最少突变最少的进化关系的进化关系就越有可能是物种之间就越有可能是物种之间真实真实的进的进化关系。化关系。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目5.1.1 信息位点和非信息位点信息位点和非信息位点根据信息的信息内容可以两类:信息位点信息
5、位点(informative):含有信息的位点信息位点信息位点就是指能由位点产生的突变数目突变数目把一棵树与其它树区分开来的位点;非信息位点非信息位点(uninformative):不含有信息的位点不变位点不变位点(invariant):属于非信息位点,比较的所有序列都有同样的核苷酸。即每一棵描述所有序列间进化关系的树都有相同的突变数目(0)。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4个物种三种可能的无根树个物种三种可能的无根树123413241423认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年
6、来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目(1,2)(3,4)(1,3)(2,4)(1,4)(2,3)序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT 图图5.15.1 4 4条同源序列的比条同源序列的比对对(每条序列有(每条序列有6 6个核苷酸)个核苷酸)6 6个位点构造个位点构造4 4个物种之间进化关系的可能无根树个物种之间进化关系的可能无根树不变位点不变位点认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目序列位点1位点2位点3位点4位点5位点61GGGGGG2G
7、GGAGT3GGATAG4GATCAT(1,2)(3,4)(1,3)(2,4)(1,4)(2,3)不变位点不变位点非信息位点非信息位点认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点不变位点非信息位点非信息位点非信息位点非信息位点(1,2)(3,4)(1,3)(2,4)(1,4)(2,3)认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目序列位点1位点2位
8、点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点不变位点非信息位点非信息位点非信息位点非信息位点非信息位点非信息位点(1,2)(3,4)(1,3)(2,4)(1,4)(2,3)认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点不变位点非信息位点非信息位点非信息位点非信息位点 非信息位点非信息位点信息位点信息位点(1,2)(3,4)(1,3)(2,4)(1,4)(2,3)认识到了贫困户贫困
9、的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点不变位点非信息位点非信息位点非信息位点非信息位点 非信息位点非信息位点信息位点信息位点信息位点信息位点(1,2)(3,4)(1,4)(2,3)(1,3)(2,4)T认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目信息位点的共同特征:信息位点的共同特征:如果一个位点是信息位点信息位点,那么它(1)至少有至少有两种不同两种不同的
10、核苷酸的核苷酸,并且(2)这些核苷酸这些核苷酸至少出现两次至少出现两次。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目5.1.2 无权简约法无权简约法无权简约法无权简约法信息位点信息位点最简约树最简约树认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目5.1.2 无权简约法无权简约法最简约树最简约树:考虑每个信息位点所有可能的树,分别给每棵树进行打分,统计每个位点的核苷酸最小替换数目。所有简约信息位点简约信息位点最小核苷酸替换数的总和最小的树树记为最简最简
11、约树约树。信息信息位点位点1信息信息位点位点2信息信息位点位点3信息信息位点位点4信息信息位点位点5信息信息位点位点6信息信息位点位点N总和总和树151583461099树29326875134树N12669288187认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4条序列比对的例子可能是最简单的例子:在只包含只包含4条序列条序列的分析中,每个信息位点只能支持3棵可能的树中的1棵,含有最多信息位点的树最多信息位点的树就是最简约树最简约树。信息信息位点位点1信息信息位点位点2信息信息位点位点3信息信息位点位点4信息信息位点位
12、点5信息信息位点位点6信息信息位点位点N总和总和树1XXXXXX99树2XXXX34树3XXXXX87认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目5 5条或更多序列数据集的计算复杂得多。条或更多序列数据集的计算复杂得多。原因在于:随序列数增加,无根树数目也增加;每个信息位点可能有多棵树(而四条序列分析中,只有一棵),整个数据集的最简约树不一定是含最多信息位点的树;每棵树的核苷酸替换数目的计算更加困难。n个物种可能得到无根系统发生树(Nu)数目:Nu=(2n-5)!/2n-3(n-3)!认识到了贫困户贫困的根本原因,才能开
13、始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目下图是描述5条不同序列之间关系的3棵有根数。这3棵有根树有相同的简约度,它们的它们的最小替换数都是最小替换数都是2 2。由简约规则,推断出的祖先的候选核苷酸分别列在每个内部节点的旁边。T512346789GGAAGA(GA)(GAT)(a)A123456789GGTAGA(GT)(GTA)(b)123456789GTGAAGGA(GA)(c)计算祖先核苷酸位置的算法:计算祖先核苷酸位置的算法:如果一个内部节点的两个直接后代节点上的核苷酸的交集非空,那么这个节点的最可能的候选核苷酸集就是这个交集;否则为它的两个后代
14、节点上的核苷酸集的并集。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目上述方法只适用于信息位点,不适用于非信息位点。非信息位点的最小替换数非信息位点的最小替换数:外部节点上不同核苷酸数目减去1(与树的拓扑结构无关)例如:例如:5条序列的比对中,有一个位置上的核苷酸是G、G、A、G和T,则最最小替换数小替换数就是3-1=2。非信息位点对所有可能的树的贡献都是等价的,在简约分析中往往被完全排除。树的长度树的长度(length):当一棵树在信息位点和非信息位点的替换数的总和是一个确定的数值时,这个数值就是指树树的长度的长度。认识
15、到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目5.1.3 加权简约法加权简约法赋值的必要性:“突变是罕见事件”将所有突变看成是等价的,但之前的学习已经告诉我们插入和删除比替换可能性小;长插入和长删除比短插入和短删除少见;转换概率大于颠换;功能相关的突变比无关的突变发生的概率小因此,我们给各种突变赋予相对概率值,在简约算法中可将这些值转化为权值权值。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目我们无法得到一组适用于所有数据集的权值,原因有三:(1)一些序列
16、比其他序列更容易插入和删除;(2)即使是同源基因,对功能的重要性也因不同的基因、不同的物种而有所差别;(3)不同的基因和物种有不同的替换偏好。因此,最佳的权值最佳的权值通常来自对实验数据集的分析,可获得的最佳实验数据集是实际分析过的数据集。例如:例如:假如转换出现频率为颠换的3倍,那么对同一序列集的简约分析简约分析就可以给所有的转换替换赋权值权值 1,给所有的颠换替换赋权值权值 0.33。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目5.2 推断出的祖先序列推断出的祖先序列简约法简约法最值得注意的副产品是分析过程中产生的推
17、断出的推断出的祖先序列祖先序列,即使这些祖先可能在数亿年前就已经灭绝。哪怕图5.1中序列1和序列2的共同祖先可能在数亿年以前就已经灭绝,简约法也能够相当准确地推断出其序列第5个位置上的核苷酸是G对于单个核苷酸,这可能是微不足道的,但是对于整个基因或基因组来说,它对了解进化过程的作用是不可替代的推断出的树中的内部分支的信息位点称作共源性状共源性状 (synapomorphies,几个物种共有的遗传状态)。其他信息位点称作同形性状同形性状(homoplasies,),它是通过趋同进化、平行进化和逆转进化,由物种独立发展出来的特征,而不是从共同祖先遗传得到的。认识到了贫困户贫困的根本原因,才能开始对
18、症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目哺乳动物啮齿动物例如同形性状同形性状共源性状共源性状 应用 进化论对创世论的反驳 利用简约分析推断出祖先,不仅填补了分子进化研究中空白,还能从现存后代序列中推断出中间状态;认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目5.3 快速搜索策略快速搜索策略即使信息位点的数目较少,用未改进的简约法对较多序列的比对进行手工计算也是不现实。分析10条序列需要考虑200万棵树。由于数据集十分庞大,计算困难,因此研究出一些改进的算法,不用考虑所有可能的树就能够方
19、便可靠地确定最简最简约树约树。分支约束法分支约束法启发式搜索启发式搜索认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目5.3.1 分支约束法分支约束法分支约束法分支约束法(BranchandBoundMethod)Hardy和Penny于1982年提出。Branch分支Bound边界、约束步骤:步骤:为最简约树的长度长度确定一个上限L。L的值可以是随机选择的任何一棵描述被研究物种之间关系的树的长度。但是如果用近似最简约的树(例如UPGMA产生的树)来建立上限更有效。树的生长树的生长过程,即在描述部分序列之间关系的树中每次增加
20、一个分支。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目这个方法的原理原理是:由数据子集得到的任何一棵树,如果它的替换数替换数大于L,那么当剩下的序列加入后,总的分支长度必定变得更大,那么原先的长度为L的树为最简约树最简约树。换而言之,最简约树不可能是包含上述特定分支模式的树如果在分析过程中,如果发现比初始建立的上限为L的树替换数更少的树,那么L的值将随之修正,这样余下的数据集的分析将更为有效。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目分支约束法搜
21、索最简约树的过程分支约束法搜索最简约树的过程表示3个物种(A,B,C)之间关系的无根树只有1棵(A1);用这棵树作为起始点,将第4个物种(D)插入到树A1中,得到四个物种的3种无根树(B1,B2,B3);如果插入后得到的树的长度大于原来的树,例如B3,舍弃该树。继续插入第5个物种,重复上述步骤,直到所有待分析物种都被插入到树中。下图是用分支约束法搜索简约树的过程认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目BACA1STOPABCDB3ABCDB2ABCDB1ABCDEABCDEABCDEABCD EABCDEABCDEA
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 概论 第五 基于 特征 系统 发生 分析 ppt 课件
限制150内