删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

(付岩)蛋白质组大数据分析算法

本站小编 Free考研/2020-05-19

如果说基因是生命的遗传密码,那么蛋白质就是生命功能的具体执行者,其状态变化直接决定着生物体生老病死的生命过程。例如,主流观点认为阿尔茨海默病(老年痴呆症)与大脑内类淀粉样蛋白质堆积以及 Tau蛋白质过度磷酸化修饰高度相关。与基因组相对应,蛋白质组是指一个细胞、组织、器官或者物种中在特定时刻或条件下表达的所有蛋白质。监测和分析蛋白质组的变化,对于疾病的早期诊断、预防和治疗都有重要价值。近年来快速发展的生物质谱技术因其高通量、高分辨率特性,成为蛋白质组研究的主流分析技术。目前,一次常规的蛋白质组实验就能产生数以百万计的质谱数据。这些海量质谱实验数据一方面为蛋白质组学提供了前所未有的研究机遇,另一方面在数据处理和分析上也充满了困难和挑战。计算和统计蛋白质组学作为一个新兴的交叉研究方向,旨在为蛋白质组研究提供高效准确的数据分析算法,为解决相关生物和医学问题提供可靠的数学模型和计算工具。在这一方向上,我们已对蛋白质鉴定、蛋白质定量、蛋白质修饰发现、以及统计显著性评估等问题做了十多年系统性的研究。2019年我们取得了以下进展。
  (1)蛋白质组复杂性的一个表现是蛋白质序列上大量存在的翻译后修饰,发生修饰的蛋白质,其理化性质会发生显著改变,从而实现了蛋白质功能的指数级扩增。由于蛋白质上潜在的修饰位点非常多,对修饰进行精确的定位是研究修饰对蛋白功能调控的前提。对质谱数据的开放式搜索会产生大量的候选修饰位点,其假阳性率很高。已有的修饰定位算法基于单一质谱数据,没有挖掘和利用大量质谱数据中蕴含的有用信息。我们基于经验贝叶斯思想,提出了首个面向开放式质谱数据分析的高精度修饰定位概率算法PTMiner,该算法通过一个迭代过程自动地从大规模质谱数据中学习修饰先验概率,更精确地估计修饰位点的后验概率。我们将PTMiner用于人类蛋白质组草图海量数据(两千多万个质谱图)的修饰分析,在1%假阳性率下可靠测定了一百多万个修饰,系统全面地刻画了人类蛋白质组中的已知和未知修饰。
  (2)在自底向上蛋白质组学中,蛋白质首先被酶解成肽(较短的氨基酸序列),后者再被质谱仪检测分析。但是,质谱检测具有较大的随机性,表现在:有些肽能被检测到,有些肽检测不到。这种随机性给蛋白质组实验设计带来了很大困难。我们首次提出了融合肽酶切概率的肽可检测性预测策略,基于随机森林机器学习方法开发了肽可检测性预测算法AP3。该算法首先根据酶切位点周边的氨基酸序列预测酶切位点概率,进而计算肽的酶切概率,然后联合其它587种肽序列和物化属性预测肽可检测性。实验表明,肽酶切概率是最重要的肽可检测性预测特征,与已有最好的算法相比,AP3的特征肽预测精度提高了10.3–34.7%。进一步我们将AP3算法用于靶向蛋白质组学中的特征肽选择实验设计,获得了很好的效果。
  (3)质谱随机性的另一种表现是:相同浓度的肽的质谱信号强度往往存在很大差异。目前,蛋白质定量通常采用对肽质谱强度取平均的策略,由于肽质谱强度的测量误差非常大,这种策略只有当肽的数量很大时才有效,但是肽的数量通常较小。为了提高蛋白质定量分析的准确性,我们提出了肽质谱定量效率概念,开发了基于肽定量效率预测的蛋白质绝对定量算法LFAQ。该算法首先利用贝叶斯回归累加树模型,根据肽序列和物化属性预测肽定量效率,然后用预测的定量效率校正肽质谱强度信号,进而对蛋白质浓度进行更准确的定量。实验表明,LFAQ算法可以有效的在肽和蛋白水平上减小样本浓度和质谱强度之间的测量误差,显著提升蛋白质定量精度,尤其是对于低丰度蛋白,将定量误差减小了46%。
  以上工作都是与生物领域长期合作取得的成果,发表后得到领域同行的关注和认可,并在实际研究中得到应用。PTMiner算法是与中国科学院上海药物研究所谭敏佳研究员团队合作完成的,我院博士毕业生安志武是共同第一作者,付岩副研究员和巩馥洲研究员是共同通讯作者。论文在Molecular & Cellular Proteomics期刊在线发表后,当月全文下载351次,一度是该期刊阅读量第二高的论文。近日,蛋白质组学研究重镇、美国系统生物学研究所在其最新论文中介绍了PTMiner,并与之做了比较(bioRxiv, 10.1101/679845, 2019)。AP3和LFAQ算法是与军事科学院蛋白质组学国家重点实验室贺福初院士团队合作完成的,论文发表在Analytical Chemistry期刊。我院博士毕业生高志强是共同第一作者,付岩副研究员是共同通讯作者。近日,计算蛋白质组学领域先驱、加拿大滑铁卢大学马斌教授在其最新研究中实际应用了AP3算法来预测肽段可检测性(bioRxiv, 10.1101/802231, 2019)。
  
  工具链接:
  PTMiner: http://fugroup.amss.ac.cn/software/PTMiner/PTMiner.html
  AP3: http://fugroup.amss.ac.cn/software/AP3/AP3.html
  LFAQ: https://lfaq.github.io/LFAQ/
  
  论文信息:
  1. Zhiwu An, Linhui Zhai, Wantao Ying, Xiaohong Qian, Fuzhou Gong, Minjia Tan and Yan Fu. PTMiner: Localization and Quality Control of Protein Modifications Detected in an Open Search and Its Application to Comprehensive Post-translational Modification Characterization in Human Proteome. Molecular & Cellular Proteomics, 18 (2) 391-405, 2019.
  2. Zhiqiang Gao, Cheng Chang, Jinghan Yang, Yunping Zhu, Yan Fu. AP3: An Advanced Proteotypic Peptide Predictor for Targeted Proteomics by Incorporating Peptide Digestibility. Analytical Chemistry, 2019, 91, 8705?8711.
  3.Cheng Chang, Zhiqiang Gao, Wantao Ying, Yan Fu, et al. LFAQ: towards unbiased label-free absolute protein quantification by predicting peptide quantitative factors. Analytical Chemistry, 2019, 91, 1335?1343.
  
  

附件下载:
相关话题/数据 概率

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • (周川)图数据建模与算法研究
    图数据是一类广泛存在的非结构数据,如何对其进行有效地分析与挖掘是目前学术界和业界所共同关注的热点问题之一。近两年来,周川与合作者在网络对齐、异质图神经网络、社交推荐、稠密块检测等问题中取得了一系列重要进展。  1.面向跨网络用户对齐的深度主动学习方法。跨社交网络的用户对齐标注数据较为稀疏且通常面临标 ...
    本站小编 Free考研 2020-05-19
  • (张新雨)函数型数据的模型平均方法研究
    函数型数据是指源自于某个函数的数据,比如管理科学中的学习曲线、统计过程控制中的质量指标、路口的交通流量数据等。张新雨与合作者在函数型数据的最优模型平均预测研究中取得突破性进展。具体成果包括:  1. 在函数型线性回归框架下,利用Karhunen-Loève方法对函数型自变量和因变量进行展开,展开的阶 ...
    本站小编 Free考研 2020-05-19
  • 体育(奥运)旅游大数据实验室在北体揭牌成立
    2019年11月10日,体育(奥运)旅游大数据实验室在北京体育大学成立。北京体育大学党委常委、副校长高峰和联通大数据有限公司总经理赵越共同为体育(奥运)旅游大数据实验室成立揭牌。揭牌仪式由北京体育大学体育休闲与旅游学院党总支书记蔡文菊主持。党委副书记邢尚杰致辞中表示,体育(奥运)旅游大数据实验室是以 ...
    本站小编 Free考研 2020-05-17
  • 国家微生物科学数据中心实施方案通过专家论证
    近日,根据国家科技基础条件平台中心要求,中国科学院办公厅在国家微生物科学数据中心(以下简称数据中心)依托单位中国科学院微生物研究所召开数据中心实施方案专家论证会。国家微生物科学数据中心实施方案顺利通过专家论证。论证会由微生物所科技处处长杨怀义主持,数据中心主任马俊才从工作基础、目标任务、运行保障机制 ...
    本站小编 Free考研 2020-05-16
  • 微生物所青年吴林寰获得WDS数据管理奖
    2018年11月7日,在博茨瓦纳举行的WorldDataSystem(WDS)InternationalDataWeek2018(IDW2018)世界数据系统国际数据周上,来自中国科学院微生物研究所微生物资源与大数据中心、世界微生物数据中心的吴林寰博士,获得2017年WDSDataStewardsh ...
    本站小编 Free考研 2020-05-16
  • 【2020高招】大数据、智能+……为你创造不一样的明天!
    编者按:为了帮助广大考生和家长更好了解北京建筑大学及2020年高考招生专业情况,即日起,学校在官方新媒体推出“招生微传单”专栏,展示各学院风采及学科专业特色,敬请关注。电气与信息工程学院院长寄语作为北京市高校唯一一所建筑类的电气与信息工程学院,培养了大批高级专门人才,目前北京市建筑电气、计算机和自动 ...
    本站小编 Free考研 2020-05-16
  • 北服采用信息化手段实现数据监控,大大提升统计效率
    为有效预防和控制新型冠状病毒感染的肺炎疫情,掌握全校师生疫情防控相关情况,北服充分利用信息技术手段、发挥“智慧北服”作用,在大数据应用基础上,学校信息中心、党委学生工作部大力推动疫情防控信息报送平台的搭建,在前期人工填写、统计工作的基础上,全校师生依托此信息化平台每日报送个人情况。截止2月7日,所有 ...
    本站小编 Free考研 2020-05-15
  • 中国矿业大学(北京)与柏睿数据共建“城市公共危机管理与决策实验室”
    中国矿大(北京)与柏睿数据签署合作协议柏睿数据与中关村能源与安全科技园中国矿大(北京)国家大学科技园签署协议中国矿业大学(北京)副校长、该实验室负责人范中启教授讲话柏睿数据董事长兼首席科学家刘睿民讲话本网讯4月18日上午,中国矿业大学(北京)与威讯柏睿数据科技(北京)有限公司在京正式签署合作协议,校 ...
    本站小编 Free考研 2020-05-14
  • 国家植保、天敌数据中心和观测实验站参加国家农业基础性科技创新条件能力项目建设运行管理座谈会
    10月31日,国家农业基础性科技创新条件能力项目建设运行管理座谈会在京举办,会议总结近年来农业基础性长期性科技工作的成效与经验,部署实施国家农业基础性科技创新条件能力建设项目。农业农村部副部长余欣荣出席座谈会并讲话,农业农村部科技司司长廖西元作总结讲话。农业农村部副部长张桃林主持会议。中国农业科学院 ...
    本站小编 Free考研 2020-05-13
  • 作科所建成2.0版水稻功能基因组育种数据库
    中国农业科学院作物科学研究所水稻分子设计技术与应用创新团队牵头组织国内外多个单位完成的2.0版水稻功能基因组育种数据库(RFGBv2.0,http://www.rmbreeding.cn/Index)构建和应用的工作取得重要进展。相关研究成果于7月23日在线发表在《植物生物技术(PlantBiote ...
    本站小编 Free考研 2020-05-13