生物信息学原理题库(7页).doc
《生物信息学原理题库(7页).doc》由会员分享,可在线阅读,更多相关《生物信息学原理题库(7页).doc(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、-生物信息学原理题库-第 7 页一、关于BLAST简述BLAST搜索的算法思想。答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持
2、了比对的精度。BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同
3、的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对BLAST中,E值和P值分别是什么,它们有什么意义?答:BLAST中使用的统计值有概率p值和期望e值。E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。p值表示比对结果得到的分数值的可信度。一般说来,p值越接近于零
4、,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。(阈值越高,序列相似就越可信)(序列越长,序列相似就越可信)试述PSI-BLAST搜索的5个步骤。答:1选择待查序列(query)和蛋白质数据库;2PSI-BLAST构建一个多序列比对,然后创建一个序列表谱(profile)又称特定位置打分矩阵(PSSM);3PSSM被用作query搜索数据库4PSI-BLAST估计统计学意义(Evalues)5重复3和4,直到没有新的序列发现。6.PSI-BLASTandPHI-BLASTPSI-BLAST:位点特异性反复比对,首先进行一般的blastp比对,从比对结果中构建多序列
5、比对的搜索矩阵,然后用此矩阵在一次搜索原来的数据库,重复5次直到没有新的结果出现为止。其是一种更加高灵敏度的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员。PHI-Blast:模式识别BLAST,是一种既能和查询匹配又能和模式匹配的的蛋白序列的比对程序,是一种高灵敏性的blastp程序,一般经过一次搜索即可取得很好的效果,而当一次之后其与PSI-BLAST功能是一致的。广泛用于蛋白家族成员的鉴定。全局比对:对序列的全部字符进行比对,试图使尽可能多的字符实现匹配。其主要用于序列相似度很高且序列长度相近的序列比对,用于进化的研究和结构的预测。局部比对:寻找序列间相似度最高的区域
6、,也就是匹配密度最高的部分。其主要应用于某些部位相似度较高而其他部位差异较大的序列的比对,用于寻找保守的核苷酸及蛋白质序列中氨基酸模式。什么是序列比对中使用的PAM矩阵和BLOSUM矩阵,它们的作用是什么,一般BLAST选择使用的矩阵是什么答:PAM矩阵和BLOSUM矩阵都是用于序列相似性比对的记分矩阵(scoringmatrix)。PAM矩阵(PointAcceptedMutation)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位,即1%的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发生变化,因为
7、其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。模块替换矩阵BLOSUM(BLOcksSubstitutionMatrix)首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列),分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有60保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM80。此矩阵与PAM矩阵的不同之处在于:(1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍。(2)PAM:家族内成员相比,
8、然后把所有家族中对某种氨基酸的比较结果加和在一起,产生“取代”数据(PAM-1);PAM-1自乘n次,得PAM-n。假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对,得到该序列的保守情况和突变情况。3、最后用距离法构建系统发育树。假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家
9、族类别以及其结构预测。1、用该序列进行BLASTP搜索。2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。3、再用ClustW进行多序列比对。4、用人工神经网络的方法对其结构进行结构预测。二、关于分子进化系统发生树构建的基本方法l最大简约法(maximumparsimony,MP)是构造一棵反映分类单元之间最小变化的系统发生树,在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。l距离法(distance)根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵进化距离构建进化树的方法有很多,常
10、见有:FM法NJ法/邻接法是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。除权配对算法(UPGMA法)最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。l最大似然法(maximumlikelihood,ML)它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。简述除权配对法(UPGMA)的算法思想。答:通过两两比对聚类的方法进行,
11、在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。P11911)简述邻接法(NJ)构树的算法思想。答:邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。P11712)简述最大简约法(MP)的算法思想。P68答
12、:是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。P12013)简述最大似然法(ML)的算法思想。P69答:是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。P12214)UPGMA构树法不精确的原因是什么?P69答:由个于UPGMA假设在进化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 原理 题库
限制150内