生物信息学完整版(共6页).doc
《生物信息学完整版(共6页).doc》由会员分享,可在线阅读,更多相关《生物信息学完整版(共6页).doc(6页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上一、名词解释1. 生物信息学:1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;3)目的在于阐明大量生物学数据所包含的生物学意义。2. BLAST(Basic Local Alignment Search Tool) 直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。4. 一致序列:这些序列是指把多序列联配的信息压缩至单
2、条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。7. 非信息位点:对于最大简约法来说没有意义的点。8. 标度树:分支长度与相邻节点对的差异程度成正比的树。9. 非标度树:只表示亲缘关系无差异程度信息。10. 有根树:单一的节点能指派为共同的祖先
3、,从祖先节点只有唯一的路径历经进化到达其他任何节点。11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。
4、16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定义)。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上, 由计算机进行的一种理论上的蛋白裂解反应。18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。21.
5、 先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分支。24. 系统生物学(system
6、s biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。二.填空题1. 常用的三种序列格式:NBRF/PIR,FASTA和GDE2. 初级序列数据库:GenBank,EMBL和DDBJ3. 蛋白质序列数据库:SWISS-PROT和TrEMBL4. 提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组
7、百科全书)和PIR(蛋白质信息资源)5. 目前由NCBI维护的大型文献资源是PubMed6. 数据库常用的数据检索工具:Entrez,SRS,DBGET7. 常用的序列搜索方法:FASTA和BLAST8. 高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)9. 多序列联配的常用软件:Clustal10. 蛋白质结构域家族的数据库有:Pfam,SMART11. 系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法 12. 系统发育树的构建方法: 距离矩阵法,最大简约法和最大似然法13. 常用系统发育分析软件:PHYLIP14. 检测系统发育树可靠性的技术:bootst
8、rapping和Jack-knifing15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的16. 检测原核生物ORF的程序:NCBI ORF finder17. 测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)18. 二级结构的三种状态:螺旋,折叠和转角19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层20. 通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISSMODEL网站)21. 蛋白质质谱数据搜索工具:SEQUEST22. 分子途径最广泛数据库:KEGG23. 聚类分析方法,分为有监督学习方
9、法,无监督学习方法24. 质谱的两个数据库搜索工具:SEQEST和Lutkefish三.问答题1. FASTA序列格式 第一行以“”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。 (NBIR/PIR序列格式 第一行以“”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。 GDE
10、序列格式 与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)2. BLAST的五个子程序程序查询序列数据库种类简述方法Blastp蛋白质蛋白质可以找到具有远源进化关系的匹配序列待搜索蛋白序列与蛋白数据库比较Blastn核苷酸核苷酸适合寻找分值较高的匹配,不适合远源关系待搜索核酸序列与核酸数据库比较Blastx核苷酸(已翻译)蛋白质适合新DNA序列和EST序列的分析将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较TBlastn蛋白质核苷酸(已翻译)适合寻找数据库中尚未标注的编码区将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比TBl
11、astx核苷酸(已翻译)核苷酸(已翻译)适合分析EST序列无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列3. 生物类的数据库类别: 一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。4. PSI-Blast的原理:PSI-BLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 完整版
限制150内