转录剪切位点.pptx

资源ID：88412652 资源大小：799.05KB 全文页数：106页
资源格式： PPTX 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

转录剪切位点.pptx

第一节第一节核酸序列的数据形式核酸序列的数据形式1.串（string）符号或字符的有序排列，符号或字符来自有限集合A,T,G,C。序列（sequence）与串是同一概念。s=ATTGCATATG；串的长度|s|;串s某个位置的字符表示为si，1 i|s|。特别的，长度为0的串称为空串（empty string），用符号表示。第1页/共106页2.子串（substring）和子序列（subsequence），二者不是相同的概念。子串和超串s=ATGCGGTA;t=TGCGG;s是t的超串子序列和超序列s=ATGCGGTA;t=TGTA；s是t的超序列区间（interval）s=ATGCGGTACGTATACG;u=CG,si,i+1第2页/共106页3.串u和w的拼接(concatenation),表示为uw。例如s=ATGCGGTA;t=TGCGGst=ATGCGGTATGCGGts=TGCGGATGCGGTA串的冥s=AT；sss=AT AT AT=s3串的前缀（prefix）s=ATGCGGTAGC;prefix(s,3)=ATG;prefix(s,0)=存在且只存在s的另1个子串u,使得s=tu,t是u的前缀。第3页/共106页串的后缀（suffix）s=ATGCGGTAGCsuffix(s,3)=AGC；suffix(s,2)=GC；suffix(s,0)=存在且只存在s的另1个子串u,使得s=ut,t是u的后缀。杀手因子(killer agent)，假定存在1个特别的串|-1 在与其它串拼接的时候，起到删除相邻字符的作用第4页/共106页例如,s=ATGCGGTAGC s=TGCGGTAGCs=ATGCGGTAG ATGC GGTAG?无意义(ATGC)GGTAG ATGC(GGTAG)stu=(st)u=s(tu);|s|-1,|t|-1,|u|-1|st|=|s|+|t|,s和t可以是任何串第5页/共106页利用杀手因子可以表示1个串的子串，前缀和后缀sij=i-1 s|s|-jprefix(s,k)=s|s|-kSuffic(s,k)=|s|-k s 第6页/共106页第二节第二节序序列列比比较较序列比较的根本任务：发现序列之间的相似性辨别序列之间的差异序列比较的目的：相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系第7页/共106页序列的相似性序列的相似性同源（同源（homologyhomology）-具有共同的祖先具有共同的祖先直向同源（直向同源（Orthologous Orthologous）共生同源（共生同源（paralogous paralogous）相似（相似（similaritysimilarity）同源序列一般是相似的同源序列一般是相似的相似序列不一定是同源的相似序列不一定是同源的进化趋同（同功能）进化趋同（同功能）第8页/共106页直向同源（a1 in species I,a1 in species II)共生同源（a1 and a2 in species I）进化趋同水平转移基因复制第9页/共106页序列相似性的描述序列相似性的描述定性的描述定性的描述定量的数值定量的数值相似性相似性距离距离第10页/共106页序列比较的基本操作是比对序列比较的基本操作是比对（Alignment）两个序列的比对是指这两个序列中各个字符的一种一一对应关系，或字符的两个序列的比对是指这两个序列中各个字符的一种一一对应关系，或字符的对比排列对比排列。例如，设有两个序列：s=GACGGATTAG，t=GATCGGAATAGAlignment2:GA-CGGATTAGGATCGGAATAGAlignment1:GACGGATTAG GATCGGAATAG第11页/共106页字母表和序列字母表和序列字母表字母表(字符或符号集合字符或符号集合)4字符DNA字母表：A,C,G,T扩展的遗传学字母表或IUPAC编码单字母氨基酸编码第12页/共106页符号含义说明GGGuanine AAAdenine TTThymine CCCytosineRG or APurine YT or CPyrimidine MA or CAmino KG or TKeto SG or CStrong interaction(3 H bonds)WA or TWeak interaction(2 H bonds)HA or C or TNot-GBG or T or Cnot-AVG or C or Anot-T(not-U)DG or A or Tnot-C NG or A or T or CAny 扩展的遗传学字母表或扩展的遗传学字母表或IUPACIUPAC编码编码第13页/共106页序列比对的生物学背景分子生物学实验技术和大规模测序方法的发展，使复杂序列之间的比较成为实验室的常规数据分析。基因组学的发展，物理图谱的构建，DNA的拼接求。一个或一些序列与其它数据序列的比较。两个序列之间是否存在相同的子串。个序列与数据库中序列是否存在相似的子串。第14页/共106页序列比较可以分为五种基本情况序列比较可以分为五种基本情况：（1 1）两条长度相近序列相似性分析，找出序列的）两条长度相近序列相似性分析，找出序列的差别差别（2 2）判断一条序列的前缀与另一条序列的后缀相）判断一条序列的前缀与另一条序列的后缀相似似（3 3）判断一条序列是否是另一条序列的子序列）判断一条序列是否是另一条序列的子序列（4 4）判断两条序列中是否有非常相似的子序列）判断两条序列中是否有非常相似的子序列（5 5）对多个序列进行上述）对多个序列进行上述4 4种分析种分析第15页/共106页第三第三节节两个序列的比较两个序列的比较1.全局比较基本算法通过全局比对(global alignment)，了解序列的相似性例如，s=ATTGCATATG；t=ATTGATATCs=ATTGCATATGt=ATTG ATATC第16页/共106页记分系统的引入与比对打分匹配1空配2错配1对s,t进行相似性比较，得到的最大记分值，称为2序列的相似性，表示为sim(s,t)=maxscore is=ATTGCATATG；s=ATTGCATATG t=ATTG ATATC;t=ATTG ATATC8(-2)(-1)=5 4+(-2)+(-1)5=-1第17页/共106页2.局部比较序列s和t的局部比较是通过局部比对(local alignment)实现的，是s和t子串之间的比对。例如，s=AATTGCATATG；t=ATTGT，对它们进行局部相似性比较，表示s(2,3,4,5)=t(1,2,3,4)第18页/共106页3.半全局部比较序列s和t的比对，序列长度相差较大例如，s=AATTGCATATG；t=ATTGT，对它们进行全局相似性比较，表示s=AATTGCATATG；s=AATTGCATATGt=-ATTGT-；t=A-TTG-T-半全局比对的核心是2个序列前缀与后缀第19页/共106页第四第四节节相似性和距离相似性和距离1.相似性相似性的度量是基于比对，2个序列的相似性可以由sim(s,t)maxscore i2.距离对任何的一个串实施一系列的变换后，可以转化为另一个串 s t;t=AGCTT;s=TTA TTA -TTA AGTTA AGCTAAGCTT第20页/共106页变换的操作：1 字符的替换 2 空格插入和删除给予每个变换特定的开销(cost)dist(s,t)=mincost i第21页/共106页扩展的编辑操作扩展的编辑操作ACCGACAATATGCATA ATAGGTATAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二条序列头尾颠倒可以通过基本操作实现第22页/共106页反向互补序列反向互补序列RNA发夹式二级结构第23页/共106页第五节第五节通过点矩阵进行序列比较通过点矩阵进行序列比较“矩阵作图法矩阵作图法”或或 “对角线作图对角线作图”第24页/共106页第25页/共106页第26页/共106页序列1 序列2 实例第27页/共106页序列1 序列1 自我比较第28页/共106页滑动窗口技术滑动窗口技术两条序列中有很多匹配的字符对，因而在点矩阵中会形成很多点标两条序列中有很多匹配的字符对，因而在点矩阵中会形成很多点标记。记。第29页/共106页滑动窗口技术滑动窗口技术使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。假设窗口大小为假设窗口大小为1010，相似度阈值为，相似度阈值为8 8，则每次比较取，则每次比较取1010个连续的字符，个连续的字符，如相同的字符超过如相同的字符超过8 8个，则标记个，则标记基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声，并且明基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声，并且明确无误的指示出了两条序列间具有显著相似性的区域。确无误的指示出了两条序列间具有显著相似性的区域。第30页/共106页（a a）对人类（）对人类（Homo sapiensHomo sapiens）与黑猩猩（）与黑猩猩（Pongo pygmaeusPongo pygmaeus）的）的球蛋白基球蛋白基因序列进行比较的完整点阵图。（因序列进行比较的完整点阵图。（b b）利用滑动窗口对以上的两种球蛋白基）利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图，其中窗口大小为因序列进行比较的点阵图，其中窗口大小为1010个核苷酸，相似度阈值为个核苷酸，相似度阈值为8 8。(a)(b)第31页/共106页具有连续相似区域的两条具有连续相似区域的两条DNADNA序列的简单点阵图序列的简单点阵图第32页/共106页第六节第六节 DNA片断的组装片断的组装1.生物学背景 DNA测序技术的发展2.片断的组装(fragment assembly)片断（fragment）的产生第33页/共106页理想情况例如ATTGGGCA;CGATT;TGGGCAGA组装-ATTGGGCA-CGATT-TGGGCAGACGATTGGGCAGA 表决序列第34页/共106页复杂情况碱基识别错误序列方向未知重复序列缺乏覆盖序列污染第35页/共106页复杂情况的组装模型最短公共超串(shortest common superstring)重构(reconstruction)多连叠(multicontig)第36页/共106页第七节第七节 DNADNA序列分析序列分析 DNA序列分析基因序列基因表达调控信息寻找基因牵涉到两个方面的工作寻找基因牵涉到两个方面的工作：识别与基因相关的特殊序列信号预测基因的编码区域结合两个方面的结果确定基因的位置和结构基因表达调控信息隐藏在基因上游区域，在组成基因表达调控信息隐藏在基因上游区域，在组成上具有一定的特征，可以通过序列分析识别这些上具有一定的特征，可以通过序列分析识别这些特征。特征。第37页/共106页 DNA DNA序列分析步骤和分析结果评价序列分析步骤和分析结果评价在DNA序列中，除了基因之外，还包含许多其它信息，这些信息大部分与核酸的结构特征相关联，通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点如启动子（Promoter）、基因终止序列（Terminator sequence）、剪切位点（Splice site）等。第38页/共106页发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案第39页/共106页功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。两个集合：训练集（training set）用于建立完成识别任务的数学模型。测试集或控制集（control set）用于检验所建模型的正确性。用训练集中实例对预测模型进行训练，使之通过学习后具有正确处理和辨别能力。然后，用模型对测试集中的实例进行“功能”与“非功能”的判断，根据判断结果计算模识别的准确性。第40页/共106页收集已知的功能序列和非功能序列实例（这些序列之间是非相关的）训练集（training set）测试集或控制集（control set）建立完成识别任务的模型检验所建模型的正确性对预测模型进行训练，使之通过学习后具有正确处理和辨别能力。进行“功能”与“非功能”的判断，根据判断结果计算模识别的准确性。识别识别“功能序列功能序列”和和“非功能序列非功能序列”的过程的过程第41页/共106页Sn 敏感性敏感性Sp 特异性特异性Tp是正确识别的功能序列数，Tn为正确识别的非功能序列数，Fn是被错误识别为非功能序列的功能序列数，Fp是被错误识别为功能序列的非功能序列数。第42页/共106页敏感性和特异性的权衡敏感性和特异性的权衡对于一个实用程序，既要求有较高的敏感性，也要求有较高的特异性。如果敏感性很高，但特异性比较低，则在实际应用中会产生高比率的假阳性；相反，如果特异性很高，而敏感性比较低，则会产生高比率的假阴性。对于敏感性和特异性需要进行权衡，给出综合评价指标。第43页/共106页功能位点分析功能位点分析功能位点（functional site）与特定功能相关的位点，是生物分子序列上的一个功能单元，或者是生物分子序列上一个较短的片段。功能位点又称为功能序列（functional sequence）、序列模式（motif）、信号（signal）等。核酸序列中的功能位点包括转录因子结合位转录因子结合位点点、转录剪切位点转录剪切位点、翻译起始位点翻译起始位点等。在蛋白质序列分析中，常使用序列模式这个名词，蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。第44页/共106页功能位点示意功能位点示意第45页/共106页基因组序列中若干个相邻的功能位点组合形成功能区域（functional region）。功能位点分析的任务发现功能位点特征识别功能位点第46页/共106页A 利用共有序列搜索功能位点利用共有序列搜索功能位点共有序列（common consensus）又称一致性片段共有序列是关于功能位点特征的描述，它描述了功能位点每个位置上核苷酸进化的保守性例如:NTATN 利用共有序列进行功能位点分析牵涉到两个方面的问题，如何构造共有序列如何利用共有序列在给定的核酸序列上搜索寻找功能位点，并计算所找到的功能位点的可靠性第47页/共106页共有序列具有以下几个方面的特征：（1）共有序列中既有保守的位置，也有可变的位置；（2）任何位置上的核苷酸可以用15种类型之一来表示：第48页/共106页核苷酸表示符号核苷酸表示符号符符号号含含义义说说明明GG腺嘌呤腺嘌呤AA鸟嘌呤鸟嘌呤TT胸腺嘧啶胸腺嘧啶CC胞嘧啶胞嘧啶RG or A嘌呤嘌呤YT or C嘧啶嘧啶MA or C氨基氨基KG or T羧基羧基SG or C强氢键强氢键(3个氢键个氢键)WA or T弱氢键弱氢键(2个氢键个氢键)HA or C or T非非GBG or T or C非非AVG or C or A非非T(非非U)DG or A or T非非CNG or A or T or C任意碱基任意碱基第49页/共106页共有序列构造过程:(1)初始化共有序列为一系列可变位置，以“N”代表(2)在可变位置寻找出现次数最多的核苷酸，并将该位置转化为保守位置(3)对当前所得到的共有序列进行特异性检查，若通过检查，转（5），否则转（4）(4)形成与当前共有序列一致的位点子集，剔除不一致的位点子集，转（2）(5)从原位点集合中删除与当前共有序列一致的位点，用确定的碱基替换“N”；若还有剩余位点，则转（1），构造另外的共有序列。第50页/共106页TTATGATATATACGCTTGTC TCCAC TTATGATATATACGCTTGTC TCCAC TNNNN tTATG tACGC tTGTC tCCAC tTATG tACGC tTGTC tCCAC TNNNC 1 2 3 4 2 3 NNNNNTNN NN非特异 TNNNC非特异 tACGc tTGTc tCCAc 4 2 tACGc tTGTc tCCAc 3 TNSNC 特异 5 Consensus1：TNSNC 剩余位点：TTATG ATATA 5 Consensus2：NTATN TNSNC第51页/共106页在给定的序列中搜索与共有序列一致的序列片段数据库搜索共有序列表示方法的缺点：是关于序列特征的一种定性描述，对于DNA序列，它能够说明序列每个位置可能出现的碱基类型，但是不能准确地说明各位置上不同类型碱基出现的可能性大小。第52页/共106页B B 用感知矩阵分析功能位点用感知矩阵分析功能位点用权系数描述功能位点各位置上每种核苷酸的相对重要性感知矩阵（或加权矩阵）根据一系列功能位点的多重对比排列结果而建立的其大小为4n 4代表碱基的种类数目，n代表功能位点的长度第53页/共106页矩阵的每一个元素M(aj,j)的值代表第a种核苷酸在功能位点第j个位置上出现的得分,a A,T,G,C。123456A18227-319T26142-10G3110-50-19C5-916880感知矩阵示例感知矩阵示例第54页/共106页对于一个序列s=a1a2an，根据对应位置上核苷酸的类型，取感知矩阵中对应的权值，加和以后得到该序列的得分设S=ATTGCA，则 Ws=1+6+14-5+8+19=43 T功能位点阈值T非功能位点阈值如果Ws T，则S是功能位点；如果Ws T，则S是非功能位点。第55页/共106页感知矩阵感知矩阵M的构造算法的构造算法令A+代表功能位点集合 A-代表非功能位点集合过程如下：（1）初始化M为零矩阵；（2）执行过程（3）-（6）的循环；（3）逐步取训练集合中的每个实例Si，如果Si A+，转过程（4）；如果Si A-，转过程（5）；（4）如果W（Si）T，M不变，否则根据Si的核苷酸分布将M中所有对应元素的值加1；转（6）；（5）如果W（Si）T，M不变，否则根据Si的核苷酸分布将M中所有对应元素的值减1；转（6）；（6）若训练集合中的所有实例都处理过，则循环结束，转（7），否则继续执行循环体，直到处理完所有实例；（7）如果M稳定，则结束；否则转（2）。第56页/共106页上述算法反复调整感知矩阵M的元素值，直到M矩阵能够正确识别训练集中的所有功能位点和非功能位点。对于最终得到的感知矩阵，要求其具有敏感性和特异性，每一列上的元素值应该尽可能地有明显的差别，以便反应功能位点各个位置上的特点。第57页/共106页基因识别的一般方法基因识别的一般方法基因识别是生物信息学领域里的一个重要研基因识别是生物信息学领域里的一个重要研究内容究内容生物学背景生物学背景基因识别问题，在近几年受到广泛的重视基因识别问题，在近几年受到广泛的重视当当基因组研究进入一个系统测序阶段时，基因组研究进入一个系统测序阶段时，急需可靠自动的基因组序列翻译解释技急需可靠自动的基因组序列翻译解释技术，以处理大量已测定的但未知功能或术，以处理大量已测定的但未知功能或未经注释的未经注释的DNA序列序列第58页/共106页一个开放阅读框（一个开放阅读框（ORF,open reading frame）是一个没有终止编码的密码子序）是一个没有终止编码的密码子序列。列。原核基因识别任务的重点是识别开放阅读原核基因识别任务的重点是识别开放阅读框，或者说识别长的编码区域。框，或者说识别长的编码区域。第59页/共106页(一一)基于基因密码子特性的识别方法基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法辨别编码区域与非编码区域的一种方法检查终止密码子的出现频率检查终止密码子的出现频率终止密码子出现的期望次数为：终止密码子出现的期望次数为：每每21个（个（64/3）密码子出现一次终止密码子）密码子出现一次终止密码子第60页/共106页基本思想：基本思想：如果能够找到一个比较长的序列，其相应如果能够找到一个比较长的序列，其相应的密码子序列不含终止密码子，则这段序的密码子序列不含终止密码子，则这段序列可能就是编码区域。列可能就是编码区域。基本算法：基本算法：扫描给定的扫描给定的DNA序列，在三个不同的阅读序列，在三个不同的阅读框中寻找较长的框中寻找较长的ORF。遇到终止密码子以。遇到终止密码子以后，回头寻找起始密码子。后，回头寻找起始密码子。这种算法过于简单，不适合于处理短的这种算法过于简单，不适合于处理短的ORF或者交叠的或者交叠的ORF。第61页/共106页(二二)识别编码区域的另一种方法是分识别编码区域的另一种方法是分析各种密码子出现的频率析各种密码子出现的频率例如，亮氨酸、丙氨酸、色氨酸分别有例如，亮氨酸、丙氨酸、色氨酸分别有6个、个、4个和个和1个密码子个密码子将一个随机均匀分布的将一个随机均匀分布的DNA序列翻译成氨基酸序列翻译成氨基酸序列，则在氨基酸序列中上述序列，则在氨基酸序列中上述3种氨基酸出现的种氨基酸出现的比例应该为比例应该为6:4:1但是在真实的氨基酸序列中，上述比例并不正确但是在真实的氨基酸序列中，上述比例并不正确这说明这说明DNA的编码区域并非随机的编码区域并非随机第62页/共106页假设在一条假设在一条DNA序列中已经找到所有的序列中已经找到所有的ORF，那么可以利用密码子频率进一步，那么可以利用密码子频率进一步区分编码区分编码ORF和非编码和非编码ORF 利用这种方法，可以计算一个利用这种方法，可以计算一个ORF成成为编码区域的可能性。为编码区域的可能性。第63页/共106页一个简单的统计模型一个简单的统计模型假设相继的密码子是独立的，不存在前后依假设相继的密码子是独立的，不存在前后依赖关系。赖关系。令令fabc代表密码子代表密码子abc在编码区域出现的频率在编码区域出现的频率给定序列给定序列a1,b1,c1,a2,b2,c2,an+1,bn+1从密码子从密码子a1b1c1开始的阅读框，其开始的阅读框，其n个密码子个密码子的出现概率为的出现概率为第64页/共106页第二种和第三种阅读框第二种和第三种阅读框n个密码子出现的概率分别为个密码子出现的概率分别为第65页/共106页第第i个阅读框成为编码阅读框的概率个阅读框成为编码阅读框的概率计算：计算：算法：算法：在序列上移动长度为在序列上移动长度为3n的窗口，计算的窗口，计算Pi根据根据Pi的值识别编码的阅读框的值识别编码的阅读框第66页/共106页(三三)基于编码区碱基组成特征的识别方法基于编码区碱基组成特征的识别方法编码序列与非编码序列在碱基组成上有区别编码序列与非编码序列在碱基组成上有区别单个碱基的组成比例单个碱基的组成比例多个碱基的组成多个碱基的组成通过统计分析识别编码序列通过统计分析识别编码序列第67页/共106页分析实例分析实例第68页/共106页第69页/共106页真核基因识别的复杂性真核基因识别的复杂性真核基因远比原核基因复杂：真核基因远比原核基因复杂：一方面，真核基因的编码区域是非连续一方面，真核基因的编码区域是非连续的，编码区域被分割为若干个小片段。的，编码区域被分割为若干个小片段。另一方面，真核基因具有更加丰富的基另一方面，真核基因具有更加丰富的基因调控信息，这些信息主要分布在基因因调控信息，这些信息主要分布在基因上游区域。上游区域。第70页/共106页第71页/共106页第72页/共106页 (一一)基本思路基本思路找出基因两端的功能区域找出基因两端的功能区域:转录启动区转录启动区终止区终止区在启动区下游位置寻找翻译起始密码子在启动区下游位置寻找翻译起始密码子识别转录剪切位点识别转录剪切位点剪切给体位点剪切给体位点剪切接受体位点剪切接受体位点第73页/共106页各种不同的方法有不同的适应面，而不各种不同的方法有不同的适应面，而不同的方法有时可以结合起来以提高基因同的方法有时可以结合起来以提高基因识别的准确率。识别的准确率。关键问题是如何提高一个识别算法的敏关键问题是如何提高一个识别算法的敏感性（感性（sensitivity，Sn）和特异性）和特异性（specificity，Sp）。）。第74页/共106页(二二)真核基因识别的主要方法真核基因识别的主要方法两大类识别方法：两大类识别方法：从头计算方法从头计算方法（或基于统计的方法）（或基于统计的方法）根据蛋白质编码基因的一般性质和特征进根据蛋白质编码基因的一般性质和特征进行识别，通过统计值区分外显子、内含子行识别，通过统计值区分外显子、内含子及基因间区域及基因间区域基于同源序列比较的方法基于同源序列比较的方法利用数据库中现有与基因有关的信息（如利用数据库中现有与基因有关的信息（如EST序列、蛋白质序列），通过同源比较，序列、蛋白质序列），通过同源比较，帮助发现新基因。帮助发现新基因。最理想的方法是综合两大类方法的优点，开最理想的方法是综合两大类方法的优点，开发混合算法。发混合算法。第75页/共106页(三三)识别编码区域识别编码区域两类方法两类方法：基于特征信号的识别基于特征信号的识别内部外显子内部外显子剪切位点剪切位点5端的外显子一定在核心启动子的下游端的外显子一定在核心启动子的下游3端的外显子的下游包含多聚信号和终端的外显子的下游包含多聚信号和终止编码止编码基于统计度量的方法基于统计度量的方法根据密码子使用倾向根据密码子使用倾向双联密码统计度量等双联密码统计度量等第76页/共106页(四四)构建基因模型构建基因模型基因识别最终任务是建立完整的基因结构模型一个理想的基因识别程序应该能够发现完整的基因结构（,e1,i1,in-1,en,）ATG-外显子1内含子外显子外显子n-UAG第77页/共106页基因剪切位点基因剪切位点剪切给体（剪切给体（donor）位点）位点-“gt”接受体（接受体（acceptor）位点）位点-“ag”第78页/共106页基因的可变剪切基因的可变剪切第79页/共106页gene A基因可变剪切示意基因可变剪切示意第80页/共106页构建基因模型方法构建基因模型方法剪切位点形成外显子和内含子的边界剪切位点形成外显子和内含子的边界搜集候选外显子搜集候选外显子候选基因候选基因第81页/共106页第82页/共106页候选基因是一条非相交的外显子和内含候选基因是一条非相交的外显子和内含子的链，表示为子的链，表示为（i0,e1,i1,en,in）其中其中ij代表内含子（代表内含子（0 j n）el代表外显子（代表外显子（1 l n）i0和和in并非真实的内含子，它们分别代表并非真实的内含子，它们分别代表基因两侧的非编码序列基因两侧的非编码序列第83页/共106页候选基因位于给定的候选基因位于给定的DNA序列，并满足下列一序列，并满足下列一致性条件：致性条件：（1）所有外显子加起来的长度是）所有外显子加起来的长度是3的整数倍；的整数倍；（2）在各个外显子内部（除最后一个外显子的）在各个外显子内部（除最后一个外显子的最后一个密码子），没有终止编码；最后一个密码子），没有终止编码；（3）第一个内含子）第一个内含子-外显子边界（外显子边界（i0,e1）是翻）是翻译起始编码，而最后一个外显子译起始编码，而最后一个外显子-内含子边界内含子边界（en,in）是终止编码。）是终止编码。第84页/共106页位点图位点图（分层标注剪切位点）（分层标注剪切位点）另设两个特殊的顶点，即起点（另设两个特殊的顶点，即起点（source）和终点（）和终点（sink）。从起点到终点的任何一条路径代表一个可能的基因结构。从起点到终点的任何一条路径代表一个可能的基因结构。第85页/共106页例如例如：位点图上的路径位点图上的路径第86页/共106页候选基因所对应的道路图中的路径候选基因所对应的道路图中的路径第87页/共106页求最优路径求最优路径每一条弧附加一个权值每一条弧附加一个权值外显子、内含子度量每个节点附加权值每个节点附加权值剪切位点度量综合评价综合评价第88页/共106页(五五)基于剪切比对的基因识别方法基于剪切比对的基因识别方法基本思想是：利用数据库中的同源信息进行基因识别，包括DNA、RNA和蛋白质数据库。其方法是：首先通过分析所有可能的剪切接受体位点和剪切给体位点，构建一组候选的外显子。然后进一步分析候选外显子，寻找所有可能的外显子组合，寻找一个与已知目标蛋白质或其他表达序列最匹配的组合。第89页/共106页基因识别程序介绍基因识别程序介绍基因识别程序及访问地址基因识别程序及访问地址（HP主页；主页；ESE-mail服务器；服务器；WSweb服务器；服务器；CL客户客户/服务服务器协议；器协议；EX有可执行代码；有可执行代码；SC有源代码）有源代码）第90页/共106页第八节第八节核酸的结构预测核酸的结构预测RNARNA的二级结构预测的二级结构预测RNARNA的三级结构预测的三级结构预测第91页/共106页第九节第九节生物信息分析工具生物信息分析工具GCG GCG(Genetics Computer Group)软件包是一个序列分析、数据库管理、数据挖掘和可视化工具的综合系统由140多个独立的程序组成，每个程序进行一项单一的分析任务。广泛应用第92页/共106页GCG支持的两种核酸数据库 GenBank数据库简化版的EMBL核酸序列数据库 GCG支持的三种蛋白质数据库PIRSWISS-PROTSP-TrEMBL数据库。第93页/共106页1、序列的两两比较Gap:BestFit:FrameAlign:Compare：DotPlot:GapShow：ProfileGap:第94页/共106页2、多个序列比较、多个序列比较PileUp:HmmerAlign：PlotSimilarity：Pretty：PrettyBox：MEME：HmmerBuild：HmmerCalibrate：ProfileMake：ProfileGap：Overlap：NoOverlap：OldDistances：第95页/共106页3、按字符方式搜索数据库、按字符方式搜索数据库LookUp：StringSearch：Names：第96页/共106页4、按序列搜索数据库、按序列搜索数据库BLAST：NetBLAST：FastA：Ssearch：TFastA/TfastX/FastX：FrameSearch：MotifSearch：HmmerSearch：ProfileSearch：ProfileSegments：FindPatterns：Motifs：WordSearch：HmmerPfam：Segments：第97页/共106页5、DNA/RNA二级结构二级结构Mfold利用能量最小化方法，预测DNA或者RNA的最优二级结构或局部最优二级结构。PlotFold显示由Mfold预测的二级结构StemLoop发现序列中反向重复，用户可以指定其长度、最大和最小环尺寸等参数第98页/共106页6、进化分析、进化分析PAUPSearch：PAUPDisplay：Distances：Diverge：第99页/共106页7、片段拼接、片段拼接GelStart：GelEnter：GelMerge：GelAssemble：GelView：GelDisassemble：第100页/共106页8、发现基因和模式识别、发现基因和模式识别TestCode：CodonPreference：Frames：Repeat：Composition：CodonFrequency：Correspond：第101页/共106页9、作图、作图Map：MapPlot：MapSort:PeptideMap：PlasmidMap：PeptideSort:第102页/共106页10、引物设计、引物设计Prime：PrimePair：MeltTemp：第103页/共106页11、蛋白质分析ProfileScan：CoilScan：HTHScan：SPScan：Isoelectric:PepPlot：PeptideStructure：PlotStructure：第104页/共106页12、其它实用程序、其它实用程序关于序列的实用程序：ReverseShuffle CorruptSample关于数据库的实用程序：DataSetGCGToBLAST第105页/共106页感谢您的观看！第106页/共106页

注意事项

本文（转录剪切位点.pptx）为本站会员（莉***）主动上传，得力文库 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知得力文库 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。