转录剪切位点.pptx
《转录剪切位点.pptx》由会员分享,可在线阅读,更多相关《转录剪切位点.pptx(106页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第一节第一节 核酸序列的数据形式核酸序列的数据形式1.串(string)符号或字符的有序排列,符号或字符来自有限集合A,T,G,C。序列(sequence)与串是同一概念。s=ATTGCATATG;串的长度|s|;串s某个位置的字符表示为si,1 i|s|。特别的,长度为0的串称为空串(empty string),用符号 表示。第1页/共106页2.子串(substring)和子序列(subsequence),二者不是相同的概念。子串和超串s=ATGCGGTA;t=TGCGG;s是t的超串子序列和超序列s=ATGCGGTA;t=TGTA;s是t的超序列区间(interval)s=ATGCGGT
2、ACGTATACG;u=CG,si,i+1第2页/共106页3.串u和w的拼接(concatenation),表示为uw。例如s=ATGCGGTA;t=TGCGGst=ATGCGGTATGCGGts=TGCGGATGCGGTA串的冥s=AT;sss=AT AT AT=s3串的前缀(prefix)s=ATGCGGTAGC;prefix(s,3)=ATG;prefix(s,0)=存在且只存在s的另1个子串u,使得s=tu,t是u的前缀。第3页/共106页串的后缀(suffix)s=ATGCGGTAGCsuffix(s,3)=AGC;suffix(s,2)=GC;suffix(s,0)=存在且只存在
3、s的另1个子串u,使得s=ut,t是u的后缀。杀手因子(killer agent),假定存在1个特别的串|-1 在与其它串拼接的时候,起到删除相邻字符的作用第4页/共106页例如,s=ATGCGGTAGC s=TGCGGTAGCs=ATGCGGTAG ATGC GGTAG?无意义(ATGC)GGTAG ATGC(GGTAG)stu=(st)u=s(tu);|s|-1,|t|-1,|u|-1|st|=|s|+|t|,s和t可以是任何串第5页/共106页利用杀手因子可以表示1个串的子串,前缀和后缀sij=i-1 s|s|-jprefix(s,k)=s|s|-kSuffic(s,k)=|s|-k s
4、 第6页/共106页第二节第二节 序序 列列 比比 较较序列比较的根本任务:发现序列之间的相似性 辨别序列之间的差异序列比较的目的:相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 第7页/共106页序列的相似性序列的相似性同源(同源(homologyhomology)-具有共同的祖先具有共同的祖先直向同源(直向同源(Orthologous Orthologous)共生同源(共生同源(paralogous paralogous)相似(相似(similaritysimilarity)同源序列一般是相似的同源序列一般是相似的相似序列不一定是同源的相似序列不一定是同源的
5、进化趋同(同功能)进化趋同(同功能)第8页/共106页直向同源(a1 in species I,a1 in species II)共生同源(a1 and a2 in species I)进化趋同水平转移基因复制第9页/共106页序列相似性的描述序列相似性的描述定性的描述定性的描述定量的数值定量的数值相似性相似性距离距离第10页/共106页序列比较的基本操作是比对序列比较的基本操作是比对(Alignment)两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列对比排列 。例如,设有两个序列:s=GACGGAT
6、TAG,t=GATCGGAATAGAlignment2:GA-CGGATTAGGATCGGAATAGAlignment1:GACGGATTAG GATCGGAATAG第11页/共106页字母表和序列字母表和序列字母表字母表(字符或符号集合字符或符号集合)4字符DNA字母表:A,C,G,T扩展的遗传学字母表或IUPAC编码单字母氨基酸编码第12页/共106页符 号含 义说 明GGGuanine AAAdenine TTThymine CCCytosineRG or APurine YT or CPyrimidine MA or CAmino KG or TKeto SG or CStrong i
7、nteraction(3 H bonds)WA or TWeak interaction(2 H bonds)HA or C or TNot-GBG or T or Cnot-AVG or C or Anot-T(not-U)DG or A or Tnot-C NG or A or T or CAny 扩展的遗传学字母表或扩展的遗传学字母表或IUPACIUPAC编码编码第13页/共106页序列比对的生物学背景分子生物学实验技术和大规模测序方法的发展,使复杂序列之间的比较成为实验室的常规数据分析。基因组学的发展,物理图谱的构建,DNA的拼接求。一个或一些序列与其它数据序列的比较。两个序列之间是否
8、存在相同的子串。个序列与数据库中序列是否存在相似的子串。第14页/共106页 序列比较可以分为五种基本情况序列比较可以分为五种基本情况:(1 1)两条长度相近序列相似性分析,找出序列的)两条长度相近序列相似性分析,找出序列的差别差别(2 2)判断一条序列的前缀与另一条序列的后缀相)判断一条序列的前缀与另一条序列的后缀相似似(3 3)判断一条序列是否是另一条序列的子序列)判断一条序列是否是另一条序列的子序列(4 4)判断两条序列中是否有非常相似的子序列)判断两条序列中是否有非常相似的子序列(5 5)对多个序列进行上述)对多个序列进行上述4 4种分析种分析第15页/共106页第三第三 节节 两个序
9、列的比较两个序列的比较1.全局比较基本算法通过全局比对(global alignment),了解序列的相似性例如,s=ATTGCATATG;t=ATTGATATCs=ATTGCATATGt=ATTG ATATC第16页/共106页记分系统的引入与比对打分匹配1空配2错配1对s,t进行相似性比较,得到的最大记分值,称为2序列的相似性,表示为sim(s,t)=maxscore is=ATTGCATATG;s=ATTGCATATG t=ATTG ATATC;t=ATTG ATATC8(-2)(-1)=5 4+(-2)+(-1)5=-1第17页/共106页2.局部比较序列s和t的局部比较是通过局部比对
10、(local alignment)实现的,是s和t子串之间的比对。例如,s=AATTGCATATG;t=ATTGT,对它们进行局部相似性比较,表示s(2,3,4,5)=t(1,2,3,4)第18页/共106页3.半全局部比较序列s和t的比对,序列长度相差较大例如,s=AATTGCATATG;t=ATTGT,对它们进行全局相似性比较,表示s=AATTGCATATG;s=AATTGCATATGt=-ATTGT-;t=A-TTG-T-半全局比对的核心是2个序列前缀与后缀第19页/共106页第四第四 节节 相似性和距离相似性和距离1.相似性 相似性的度量是基于比对,2个序列的相似性可以由sim(s,t
11、)maxscore i2.距离 对任何的一个串实施一系列的变换后,可以转化为另一个串 s t;t=AGCTT;s=TTA TTA -TTA AGTTA AGCTAAGCTT第20页/共106页变换的操作:1 字符的替换 2 空格插入和删除 给予每个变换特定的开销(cost)dist(s,t)=mincost i第21页/共106页扩展的编辑操作扩展的编辑操作ACCGACAATATGCATA ATAGGTATAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二条序列头尾颠倒可以通过基本操作实现 第22页/共106页反向互补序列反向互补序列RNA发夹式二级结构第
12、23页/共106页第五节第五节 通过点矩阵进行序列比较通过点矩阵进行序列比较“矩阵作图法矩阵作图法”或或 “对角线作图对角线作图”第24页/共106页第25页/共106页第26页/共106页 序列1 序列2 实 例第27页/共106页 序列1 序列1 自我比较第28页/共106页滑动窗口技术滑动窗口技术两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。记。第29页/共106页滑动窗口技术滑动窗口技术使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。假设窗口
13、大小为假设窗口大小为1010,相似度阈值为,相似度阈值为8 8,则每次比较取,则每次比较取1010个连续的字符,个连续的字符,如相同的字符超过如相同的字符超过8 8个,则标记个,则标记基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。确无误的指示出了两条序列间具有显著相似性的区域。第30页/共106页(a a)对人类()对人类(Homo sapiensHomo sapiens)与黑猩猩()与黑猩猩(Pongo pygmaeusPongo pygmaeus)的)的球蛋白基球蛋白基因序
14、列进行比较的完整点阵图。(因序列进行比较的完整点阵图。(b b)利用滑动窗口对以上的两种球蛋白基)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为因序列进行比较的点阵图,其中窗口大小为1010个核苷酸,相似度阈值为个核苷酸,相似度阈值为8 8。(a)(b)第31页/共106页具有连续相似区域的两条具有连续相似区域的两条DNADNA序列的简单点阵图序列的简单点阵图第32页/共106页第六节第六节 DNA片断的组装片断的组装1.生物学背景 DNA测序技术的发展2.片断的组装(fragment assembly)片断(fragment)的产生第33页/共106页理想情况 例如A
15、TTGGGCA;CGATT;TGGGCAGA组装-ATTGGGCA-CGATT-TGGGCAGACGATTGGGCAGA 表决序列 第34页/共106页 复杂情况 碱基识别错误 序列方向未知 重复序列 缺乏覆盖 序列污染 第35页/共106页 复杂情况的组装模型 最短公共超串(shortest common superstring)重构(reconstruction)多连叠(multicontig)第36页/共106页第七节第七节 DNADNA序列分析序列分析 DNA序列分析基因序列基因表达调控信息 寻找基因牵涉到两个方面的工作寻找基因牵涉到两个方面的工作 :识别与基因相关的特殊序列信号预测基
16、因的编码区域结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因上游区域,在组成基因表达调控信息隐藏在基因上游区域,在组成上具有一定的特征,可以通过序列分析识别这些上具有一定的特征,可以通过序列分析识别这些特征。特征。第37页/共106页 DNA DNA序列分析步骤和分析结果评价序列分析步骤和分析结果评价在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Spl
17、ice site)等。第38页/共106页发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案第39页/共106页功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。两个集合:训练集(training set)用于建立完成识别任务的数学模型。测试集或控制集(control set)用于检验所建模型的正确性。用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。第40页/共106页收集已知的功能序列和非功能序列实例(这些序列之间是非相关的
18、)训练集(training set)测试集或控制集(control set)建立完成识别任务的模型检验所建模型的正确性对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。识别识别“功能序列功能序列”和和“非功能序列非功能序列”的过程的过程 第41页/共106页Sn 敏感性敏感性Sp 特异性特异性Tp是正确识别的功能序列数,Tn为正确识别的非功能序列数,Fn是被错误识别为非功能序列的功能序列数,Fp是被错误识别为功能序列的非功能序列数。第42页/共106页敏感性和特异性的权衡敏感性和特异性的权衡对于一个实用程序,既要求有较高的
19、敏感性,也要求有较高的特异性。如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。对于敏感性和特异性需要进行权衡,给出综合评价指标。第43页/共106页功能位点分析功能位点分析功能位点(functional site)与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。功能位点又称为功能序列(functional sequence)、序列模式(motif)、信号(signal)等。核酸序列中的功能位点包括转录因子结合位转录因子结合位点点、转录剪切位点转录剪切位点、翻译起始位点翻译
20、起始位点等。在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。第44页/共106页功能位点示意功能位点示意第45页/共106页基因组序列中若干个相邻的功能位点组合形成功能区域(functional region)。功能位点分析的任务发现功能位点特征识别功能位点第46页/共106页A 利用共有序列搜索功能位点利用共有序列搜索功能位点共有序列(common consensus)又称一致性片段共有序列是关于功能位点特征的描述,它描述了功能位点每个位置上核苷酸进化的保守性 例如:NTATN 利用共有序列进行功能位点分析牵涉到两个方面的问题,如何构造共有序列
21、如何利用共有序列在给定的核酸序列上搜索寻找功能位点,并计算所找到的功能位点的可靠性第47页/共106页 共有序列具有以下几个方面的特征:(1)共有序列中既有保守的位置,也有可变的位置;(2)任何位置上的核苷酸可以用15种类型之一来表示:第48页/共106页核苷酸表示符号核苷酸表示符号符符 号号含含 义义说说 明明GG腺嘌呤腺嘌呤AA鸟嘌呤鸟嘌呤TT胸腺嘧啶胸腺嘧啶CC胞嘧啶胞嘧啶RG or A嘌呤嘌呤YT or C嘧啶嘧啶MA or C氨基氨基KG or T羧基羧基SG or C强氢键强氢键(3个氢键个氢键)WA or T弱氢键弱氢键(2个氢键个氢键)HA or C or T非非GBG or
22、T or C非非AVG or C or A非非T(非非U)DG or A or T非非CNG or A or T or C任意碱基任意碱基第49页/共106页 共有序列构造过程:(1)初始化共有序列为一系列可变位置,以“N”代表(2)在可变位置寻找出现次数最多的核苷酸,并将该位置转化为保守位置(3)对当前所得到的共有序列进行特异性检查,若通过检查,转(5),否则转(4)(4)形成与当前共有序列一致的位点子集,剔除不一致的位点子集,转(2)(5)从原位点集合中删除与当前共有序列一致的位点,用确定的碱基替换“N”;若还有剩余位点,则转(1),构造另外的共有序列。第50页/共106页TTATGATA
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 转录 剪切
限制150内