2010年工作规划.pps
《2010年工作规划.pps》由会员分享,可在线阅读,更多相关《2010年工作规划.pps(51页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、从pLink1到pLink2更快、更准的交联肽段鉴定引擎,刘超中科院计算所 pFind团队,2016第四届中国计算蛋白质组学研讨会 中国大连,提纲,背景与问题算法与软件现状与未来,CNCP 2016,2,背景,为什么要鉴定交联肽段蛋白质-蛋白质相互作用蛋白质结构,3,CNCP 2016,以pLink1(Yang et al, 2012)应用为例,使用pLink1发表的文章29篇Nature 2篇Science 1篇Nature Communications 1篇Nature Structural & Molecular Biology 3篇,4,pLink1,CNCP 2016,pLink1下
2、载591套(2016.5.31),5,168,173,17,145,3,5,15,CNCP 2016,交联鉴定面临三大挑战,6,01样品复杂,02搜索空间大,03谱图复杂,CNCP 2016,交联鉴定面临三大挑战,7,01样品复杂,02搜索空间大,03谱图复杂,常规候选肽3.4106,交联候选肽5.351011,候选肽数目扩大10万倍,人类数据库,CNCP 2016,三个解决方案,8,01 引入标记技术(湿)一级谱图中有轻、重同位素峰簇对儿的认为是交联肽段,CNCP 2016,三个解决方案,9,01 引入标记技术(湿)一级谱图中有轻、重同位素峰簇对儿的认为是交联肽段,02引入可碎裂交联剂(湿)
3、搜索交联肽段n2 搜索两条单肽2n,CNCP 2016,02引入可碎裂交联剂(湿)搜索交联肽段n2 搜索两条单肽2n,三个解决方案,10,01 引入标记技术(湿)一级谱图中有轻、重同位素峰簇对儿的认为是交联肽段,03使用高效的索引技术(干)?,CNCP 2016,提纲,背景与问题算法与软件现状与未来,11,CNCP 2016,技术,12,20082010,CNCP 2016,技术,13,之前,之后,CNCP 2016,2012,FDR估计,NU:NF:NT 2: 1 : 1FDR=(NU-NF)/NT,14,CNCP 2016,从pLink1到pLink2,15,开始,RAW?,格式转换,蛋白
4、质数据库,谱图预处理,候选单肽,开放式索引,E-value,估计FDR,报告结果,结束,速度,精度,否,是,pLink1,候选双肽,CNCP 2016,从pLink1到pLink2,16,开始,RAW?,格式转换,蛋白质数据库,谱图预处理,搜索肽段,搜索肽段,离子索引,速度,精度,No,Yes,肽段索引,特征提取,机器学习,估计FDR,报告结果,结束,改进1,改进2,改进3,CNCP 2016,pLink2,谱图预处理 确定母离子单同位素峰,单肽 双肽(交联肽段),17,Yuan, Z.F., et al., pParse: a method for accurate determinatio
5、n of monoisotopic peaks in high-resolution mass spectra. Proteomics, 2011.,CNCP 2016,单同位素峰更低同位素峰数目更多,从pLink1到pLink2:搜索空间更精准,改进1 pLink1 pLink2母离子质量误差正负5 Da 母离子质量误差正负20 ppm,18,pLink1,pLink2,pLink1的搜索空间大,二级谱图中记录的单同位素峰,单同位素峰,CNCP 2016,从pLink1到pLink2:搜索空间更精准,改进1 pLink1 pLink2母离子质量误差正负5 Da 母离子质量误差正负20 ppm
6、,19,pLink1,pLink2,pLink2的搜索空间,CNCP 2016,Yuan, Z.F., et al., pParse: a method for accurate determination of monoisotopic peaks in high-resolution mass spectra. Proteomics, 2011.,改进2:从肽段索引到离子索引,20,SequenceDatabase,Pre-scoring,搜索两个肽段两两组合 搜索空间巨大,对一个肽段的开放式搜索 搜索空间可控,CNCP 2016,改进2:从肽段索引到离子索引,21,Combining a
7、nd Refined Scoring,SequenceDatabase,Pre-scoring,对一个肽段的开放式搜索 搜索空间可控,保留可信的单肽进行两两组合 搜索空间较小,CNCP 2016,改进2:从肽段索引到离子索引,22,实际谱图,来自数据库的理论肽段理论谱图,肽段间匹配,需要匹配所有的理论谱图,无效匹配多,肽段索引,耗时:11毫秒结果:匹配谱峰数目为0,耗时:10毫秒结果:匹配谱峰数目为0,耗时:9 毫秒结果:匹配谱峰数目为3,无效匹配,无效匹配,有效匹配,CNCP 2016,改进2:从肽段索引到离子索引(Ion-Index),针对离子建立索引一个二级谱图的谱峰就是一个离子离子与离
8、子匹配,23,离子间匹配,跳过肽段直接进行有效匹配,离子索引,实际谱图,来自数据库的理论肽段理论谱图,不在搜索空间内,不在搜索空间内,CNCP 2016,Chi Hao et al. Journal of Proteomics. 2015,改进3:机器学习(11维特征),24,CNCP 2016,改进3:机器学习(SVM在线训练),pLink1计算E-Value耗时长适应性弱pLink2使用机器学习(SVM)耗时短适应性强,25,开始,特征提取,迭代,终止,选择训练样本,SVM训练模型,重打分,重排序,达到终止条件,CNCP 2016,pLink2与pLink1对比,速度pLink2提升10到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工作规划
限制150内