蛋白质的序列分析及结构预测.ppt
《蛋白质的序列分析及结构预测.ppt》由会员分享,可在线阅读,更多相关《蛋白质的序列分析及结构预测.ppt(139页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、蛋白质的序列分析及结构预测,一、蛋白质数据库介绍 二、蛋白质序列分析 三、蛋白质结构预测 四、应用 分子设计,一、蛋白质数据库介绍,蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构以及四级结构。依据这种结构层次, 将蛋白质数据库分为: 1. 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释; 2. 蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列; 3. 蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质的结构测量数据为主; 4. 蛋白质分类
2、数据库:如SCOP、CATH、FSSP 等, 这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。,蛋白质数据库特征: 这些数据库种类有差别, 但内部是相互联系的. 每个数据库都有指针指向其他数据库, 而且数据库之间的序列以及相应的结构是共享的, 同一种蛋白质依次会出现在不同的数据库. 这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息, 这些数据库是融序列信息的索取、处理、存储、输出于一身的。,1. 蛋白质序列数据库,(1)PIR(protein information resource, PIR)和PSD (protein sequence database
3、, PSD) http:/pir.georgetown.edu/pirwww PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。 (2)SWISS-PROT/ TrEMBL数据库 www.expasy.org/swissprot,数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、 分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点 和区域、二级结构、四级结构、与其他序列的
4、相似性、序列残缺与疾病的关系、 序列变异体等信息。,2. 模体以及结构域数据库,模体数据库 (1)PROSITE 蛋白质家族及结构域数据库( www.expasy.org/prosite/ ) PROSITE 数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分析数据库。 PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质
5、结合区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱( profile) , 能更敏感地发现序列中的信息。,PROSITE同时数据库提供了序列分析工具: ScanProsite 是用于搜索所提交的序列数据是否包含 PROSITE 数据库中的序列模式或者SWISS-PROT 数据库中已提交的序列模式; MotifScan 用于查找未知序列中所有可能的已知结构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。,(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrows
6、er/PRINTS/ 这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。 (3) BLOCKS ( www.blocks.fhcrc.org/ ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来的无空位的片段。,模体数据库,蛋白质结构域数据库 (1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam( protein families database of alignments and HMMs) Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是: www.sanger.ac.uk/Software/Pfam/index.shtml。 (2)
7、 蛋白质结构域数据库ProDom http:/prodes.toulouse.inra.fr/prodom/doc/prodom.html (3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。 http:/smart.embl-heidelberg.de/,3. 蛋白质结构数据库,PDB( protein data bank , PDB) http:/www.rcsb.org
8、/pdb/ PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构, 并由RCSB 维护和注释。,4.蛋白质结构分类数据库,(1) CATH 数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html (2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html,二、蛋白质的序列分析,1. 蛋
9、白质序列信息的获取 2. 蛋白质序列分析,1. 蛋白质序列信息的获取,(1) 直接测序 (2) 翻译编码的DNA序列 ORF Finder (3)在数据库中搜索 运用ID 号、入口号、条目号等搜索。 运用关键词搜索 其他方式搜索。如可以通过引用序列的文献、序列的作者、序列提交的日期等进行搜索。,(1)直接测序,e.g. Protein Sequencing and Identification by Tandem Mass Spectrometry, 即用串联质谱仪测序,1. 蛋白质序列信息的获取,串联质谱及其作用,两个或更多的质谱连接在一起,称为串联质谱。 最简单的串联质谱(MS|MS)由两
10、个质谱串联而成,其中第一个质量分析器(MS1)将离子预分离或加能量修饰,由第二级质量分析器(MS2)分析结果。,串联质谱仪的组合方式: (1) 磁分析器-静电分析器-磁分析器(2) 静电分析器-磁分析器-静电分析器(3) 三重四极滤质器质谱仪(4) 混合式串联质谱仪,如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。,优点: 可以避免底物分子产生的干扰,大大降低背景噪音。 其次,可使分子离子通过与反应气的碰撞来产生断裂。 因此能提供更多的结构信息,所以串联质谱特别适合 于复杂组分体系且干扰严重的样品中低含量组分分析测 定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵
11、敏度。,Masses of Amino Acid Residues,Protein backbone,H.-HN-CH-CO-NH-CH-CO-NH-CH-CO-OH,Ri-1,Ri,Ri+1,AA residuei-1,AA residuei,AA residuei+1,N-terminus,C-terminus,Breaking Protein into Peptides and Peptides into Fragment Ions,Proteases, e.g. trypsin(胰蛋白酶), break protein into peptides. A Tandem Mass Spec
12、trometer(串联式质谱仪) further breaks the peptides down into fragment ions and measures the mass of each piece.,General for sequencing,Breaking Protein into Peptides and Peptides into Fragment Ions,Mass Spectrometer accelerates the fragmented ions; heavier ions accelerate slower than lighter ones. Mass Sp
13、ectrometer measure mass/charge ratio of an ion.,General for sequencing,Peptide Fragmentation,Peptides tend to fragment along the backbone. Fragments can also loose neutral chemical groups like NH3 and H2O.,H.-HN-CH-CO . . . NH-CH-CO-NH-CH-CO-OH,Ri-1,Ri,Ri+1,H+,Prefix Fragment,Suffix Fragment,Collisi
14、on Induced Dissociation,N- and C-terminal Peptides,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,N-terminal peptides,C-terminal peptides,Terminal peptides and ion types,G,F,P,N,Peptide,Mass (D) 57 + 97 + 147 + 114 = 415,H2O,Peptide,Mass (D) 57 + 97 + 147 + 114 18 = 397,G,F,P,N,H2O,without,N- and
15、 C-terminal Peptides,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,N-terminal peptides,C-terminal peptides,415,486,301,154,57,71,185,332,429,N- and C-terminal Peptides,N-terminal peptides,C-terminal peptides,415,486,301,154,57,71,185,332,429,Peptide Fragmentation,y3,b2,y2,y1,b3,a2,a3,HO NH3+ | |
16、 R1 O R2 O R3 O R4 | | | | | | | H - N - C - C - N - C - C - N - C - C - N - C - COOH | | | | | | | H H H H H H H,b2-H2O,y3 -H2O,b3- NH3,y2 - NH3,Mass Spectra,mass,0,The peaks in the mass spectrum: Prefix Fragments with neutral losses (-H2O, -NH3) Noise and missing peaks.,and Suffix Fragments.,Prote
17、in Identification with MS/MS,Tandem Mass-Spectrometry,Breaking Proteins into Peptides,peptides,MPSER,GTDIMR,PAKID,HPLC,To MS/MS,MPSERGTDIMRPAKID.,protein,Mass Spectrometry,Matrix-Assisted Laser Desorption/Ionization (MALDI) 基质辅助激光解吸质谱,基质辅助激光解吸飞行时间质谱仪 MALDI-TOF-MS,MALDI-TOF-MS是近年来发展起来的一种软电离新型有机 质谱。近年
18、来已成为检测和鉴定多肽、蛋白质、多糖、核苷酸、 糖蛋白、高聚物以及多种合成聚合物的强有力工具。 原理:当用一定强度的激光照射样品与基质形成的共结晶薄 膜,基质从激光中吸收能量,基质-样品之间发生电荷转移使 得样品分子电离,电离的样品在电场作用下加速飞过飞行管道, 根据到达检测器的飞行时间不同而被检测,即测定离子的质量 电荷之比与离子的飞行时间成正比来检测离子。 MALDI-TOF-MS的中心技术就是依据样品的质荷比(m/z) 的不同来进行检测,并测得样品分子的分子量。,Tandem Mass Spectrometry,Scan 1708,LC,Scan 1707,MS,MS/MS,多肽片段指纹
19、图谱(PFF),步骤:用酶专一性酶解蛋白质,经过分离,得到的肽段在质谱中被选择和破碎后得到MS/MS谱图,与数据库中的谱图比较进行鉴定 代表方法: LC-ESI-MS/MS 2D-LC-MS/MS(shotgun),1. 蛋白质序列信息的获取,(2)翻译编码的DNA序列 e.g.用“ORF Finder”程序找到DNA的开放阅读框。 网址:ncbi.nlm.nih.gov/gorf/gorf.html,1. 蛋白质序列信息的获取,(3)在数据库中搜索 e.g. PIR-PSD database: pir.georgetown.edu/pirwww SWISS-PROT/TrEMBL datab
20、ase www.expasy.org/swissprot,目前大部分蛋白质序列是通过DNA 人工翻译过来的, 实际上很少有人能获得真正的蛋白质, 因而实验证据就很难直接获得, 因此对蛋白质序列初始分析是很有价值的。 比如,通过一些序列分析工具进行蛋白质理化特性的预测、修饰位点的预测等。,2. 蛋白质序列分析,1.蛋白质序列的基本性质分析 理化性质分析,疏水性分析,跨膜区分析,信号肽预测,Coil区分析,亚细胞定位 2.序列数据库搜索 相似性搜索,模体的搜索 3.结构域定位 4.空间结构预测 二级结构及三级结构预测,结构预测方法评价,蛋白质序列分析主要内容:,1. 蛋白质序列的基本性质分析 (1
21、)理化性质分析 分子质量、分子式、理论等电点、氨基酸组成、消光系数、稳定性等理化特性。 例,利用ProtParam工具 http:/us.expasy.org/tools/protparam.html,CL和CLAP的理化性质预测结果,CL:组织蛋白酶L,CLAP:组织蛋白酶L相关蛋白,(2) 疏水性分析 氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性之值来表示,蛋白质的疏水性在保持蛋白质三级结构的形成和稳定中起着重要作用。 e.g.利用ProtScale工具 http:/web.expasy.org/protscale/ 利用BioEdit软件分析,海参溶菌酶亲水性/疏水性分析,Score
22、0,表示疏水性; Score 0,表示亲水性,(3) 跨膜区分析 蛋白质含有跨膜区提示它可能作为膜受体起作用,也可能是定位在膜上的锚定蛋白或离子通道蛋白。 例,使用TMHMM Server v.2.0在线分析 http:/www.cbs.dtu.dk/services/TMHMM/,铝激活苹果酸的转运蛋白(TaALMT1)跨膜结构分析,(4) 信号肽预测 信号肽:指分泌蛋白表达时氨基端的20余个氨基酸,将引导该蛋白质最终分泌至细胞外,但这段信号肽会被信号肽酶切掉,所以成熟的分泌蛋白是不含这段信号肽的。 用于指导蛋白质的跨膜转移(定位)的N末端的氨基酸序列,一般由15-30个氨基酸组成。 使用S
23、ignalP在线分析 http:/www.cbs.dtu.dk/services/SignalP/,海参溶菌酶信号肽预测,Conclusion:cleavage site between pos. 20 and 21: ASG-QV,(5) Coil区分析 蛋白质中由2-7条螺旋链相互缠绕形成类似麻花状结构的总称; 主要存在形式是2-5条相互缠绕形成的平行或反平行同寡聚体或异寡聚体; 是控制蛋白质寡聚化的元件,转录因子、骨架蛋白、动力蛋白、膜蛋白、酶等; 七肽重复区。 e.g. 使用COILS服务器分析 http:/www.ch.embnet.org/software/COILS_form.h
24、tml,(6) 亚细胞定位 根据氨基酸组成可以进行亚细胞定位 不同细胞器多具不同的理化环境,它会根据蛋白质的结构及表面理化特征选择性容纳蛋白质;蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。 亚细胞定位的步骤 在线分析工具 e.g.使用TargetP http:/www.cbs.dtu.dk/services/TargetP/,组织蛋白酶CL和相关蛋白CLAP的亚细胞定位,结果证明,CL和CLAP出现几率最高的位点都为胞质,说明它们都为 胞浆内蛋白,这也为今年来在溶酶体内外都发现组织蛋白酶活性提供 了证据。,(1)相似性搜索(或同源搜索), 一个新序列与序列数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蛋白质 序列 分析 结构 预测
限制150内