大数据和人工智能与化学基因和材料基因的融合正推动生物医学和新材料的前沿科学发展。近年来,机器学习,尤其是深度学习,已经成为基于数据驱动的分子尺度发现化学基因和材料基因强大方法。2019年冠状病毒病(COVID-19)暴发一年后还没有特异性的有效药物,这提醒我们生物医药是复杂的前沿科学领域,有效的药物发现涉及一系列相关的分子特性,包括结合亲和力、毒性、分配系数、溶解度、药代动力学、药效学等等。对生物医药分子特性的实验测定是非常耗时和昂贵的。此外,涉及到动物或人类的实验测试会有会有道德问题的禁区。因此,大数据和人工智能的方法在许多情况下可以产生快速的结果而不严重牺牲准确性,其中最受欢迎的方法之一是定量结构活性关系(QSAR)分析,它假定类似的分子具有类似的生物活性和理化性质。尽管科研人员在预测分子性质的方向已经进行了做大量的工作,但各种分子性质的定量预测仍然是一个挑战。
近日,北京大学深圳研究生院新材料学院的潘锋团队与密歇根州立大学数学系的魏国卫教授合作,通过融合代数图论方法和Google开发的深度自注意力变换(Transformer)的机器学习方法提出和发展了一种新型的代数图辅助的双向转化器(AGBT)框架,实现基于小样本数据有效的定量预测分子特性。这一成果近期发表在《自然.通讯》【Nature Communications, 2021,12(1), 1-9.】题目为“Algebraic graph-assisted bidirectional transformers for molecular property prediction”。
代数图论方法辅助的双向转化器(AGBT)框架
通常深度学习方法需要大量的数据集来进行训练,在小型数据集上利用深度学习模型一般很难取得有效准确的预测。在化学中,通过实验或者第一性原理确定有标签性能的数据只占少数。团队发现化学中的分子性能预测极大依赖于分子描述符或分子表示法,拓展深度学习方法来产生高质量的分子描述符可以提升预测的准确性,包括运用自然语言处理(NLP)中自监督学习方法,大量无标签的语言数据可被用于“预学习”和用于模型的训练和预测,在生物医学方面运用分子的SMILES表示的化学语言,利用自然语言处理中的相关模型实现了基于自监督学习方法的预训练。团队在研究中发现基于SMILES数据的训练模型会丢失一些分子结构的三维信息,从而影响相应的分子描述符的质量,从而自主原创设计出一种基于代数图论辅助的深度学习框架(AGBT),这种方法既利用了Transformer这种深度学习方法将大量无标签的分子数据利用起来,又借助了代数图论的方法弥补了深度学习框架(Transformers)所遗失的一些三维信息,可以实现高质量的分子描述符的产生。这种分子描述符,对小数据样本的分子特征预测的能力有较高的提升,实现快速有效的定量的分子特性预测。
一种元素特异性的多尺度加权彩色代数图论方法
此外,本工作利用代数图图论的方法,特别是特定元素的多尺度加权彩色代数图论方法,将三维分子信息嵌入图的不变量中,发展了代数图辅助的双向转化器(AGBT)框架,通过融合代数图论方法产生的分子描述符和Transformers产生的分子描述符表,实现与两种分子信息的互补,借助各种机器学习算法,包括决策树、多任务学习和深度神经网络,实现下游任务中对分子特性的预测。本工作在八个分子数据集上验证了所提出的AGBT框架,涉及定量毒性、物理化学和生理学数据集。大量的数值实验表明,所发展的AGBT是一个高效的分子特性预测模型。
文章的第一作者是北京大学深圳研究生院新材料学院的博士研究生陈冬,通信作者是潘锋和魏国卫教授。本工作得到国家材料基因工程重点专项和广东与深圳科技项目的支持。
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
深研院新材料学院在《自然.通讯》发表运用代数图论与机器学习实现定量预测分子特性
本站小编 Free考研考试/2021-12-20
相关话题/数据 代数 化学 信息 基因
分子所李川昀课题组发布恒河猴参考基因结构 揭示人类转录本演化新机制
作为人类近缘的非人灵长类模式动物,恒河猴在脑科学、分子演化、药物研发等基础与转化研究中发挥着不可替代的作用。然而,目前恒河猴基因结构主要源于预测,严重制约了该特色模型在分子水平的研究与应用。近日,北京大学分子医学研究所李川昀教授课题组运用全长转录本测序技术,开发了生物信息学新方法,重新准确定义了恒河 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20李辰旭:构建由数据驱动的金融衍生品定价模型
从沪深300股指期货鸣锣上市到探索各类股指ETF期权、股票期权、利率期权,10余年间,金融衍生品已深深嵌入我国资本市场肌理,并与广大投资者利益密切相关。大数据时代,如何让金融衍生品的定价更科学、更有效,从而助力交易决策和风险管理的重大需求?北京大学光华管理学院商务统计与经济计量系副教授李辰旭通过理论 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20信息学院微纳电子学系在高端芯片领域取得重要进展
被誉为集成电路领域“国际奥林匹克盛会”的国际固态电路会议(InternationalSolid-StateCircuitsConference,ISSCC)受新冠病毒疫情影响于2021年2月13日至22日以线上会议形式举行,本次会议是该系列会议的第68届。信息科学技术学院微纳电子学系在“超低功耗智能 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20陈松蹊团队在通过“静稳期数据实验”有效度量本地排放方面取得进展
众所周知,人类活动引起的过度排放是造成大气污染的主要原因,北京大学统计科学中心陈松蹊教授团队,经过反复的数据筛选和建模分析,近日,所取得的最新研究进展:通过静稳期数据实验度量本地污染排放的论文——“AssessingLocalEmissionforAirPollutionviaDataExperim ...北京大学通知公告 本站小编 Free考研考试 2021-12-20林一瀚课题组在Mol Cell发文 报道TFp300共凝聚调控基因转录爆发动力学
p300和它的同源基因CREB-bindingprotein(CBP)是转录调控过程中发挥重要作用的转录共激活因子【1】。p300/CBP的突变或者染色体易位会引起基因表达紊乱和疾病的发生【2】。前人的研究结果表明,p300/CBP至少通过两种方式来调控基因转录【3】。一方面,p300/CBP可以作 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20柯杨教授团队基于健康相关大数据建立“癌症现患与生存监测”新模式
2021年2月25日,《柳叶刀》子刊EClinicalMedicine在线发表了北京大学肿瘤医院遗传学研究室柯杨教授课题组题为“EstimatingcancersurvivalandprevalencewiththeMedical-Insurance-System-basedCancerSurvei ...北京大学通知公告 本站小编 Free考研考试 2021-12-20深研院新材料学院潘锋组与化学院孙俊良组联合用3D电子衍射揭示高电压钴酸锂机理在Nature Nanotechnology发表
锂电池作为新一代绿色储能器件已经改变了我们的生活,使我们用上了手机等移动通信和电动车等绿色出行。目前正在使用锂电池正极材料可分为3类,高端手机等用的钴酸锂、电动车电池用的有层状高容量但安全性不高的镍钴锰三元氧化物和高安全但容量不高的磷酸铁锂、电动自行车和充电宝用的低容量低成本低循环稳定性的尖晶石锰酸 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20张泽民课题组发表单细胞数据整合新方法
2月18日,北京大学生物医学前沿创新中心(BIOPIC)、生命科学学院、北京未来基因诊断高精尖创新中心(ICG)、生命科学联合中心(CLS)张泽民实验室联合百奥智汇在期刊GenomeBiology上发表了题为“iMAP:integrationofmultiplesingle-celldatasets ...北京大学通知公告 本站小编 Free考研考试 2021-12-20新材料学院基于材料基因大数据研发的“未名材料解析系统”投入应用服务
“一代材料、一代产业”,材料研制周期长、检测分析困难等问题一直限制着新材料的研发与应用。2016年国家启动了材料基因工程重点研发计划目的是用新的研究范式(高通量计算、高通量制备、高通量检测及构建材料数据库)加速新材料研发速度。北京大学深圳研究生院新材料学院潘锋教授于2016年联合多所高校、研究机构和 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20大数据人类活动与区域治理实验室运用大数据带你提前看2021春运
2021年的春节,全国疫情防控趋严,多地提倡“就地过年”,以减少大规模的人口流动,为人们安全与健康提供最好的保障。北京、上海、广东、浙江等省市,还专门发布了补贴政策。在疫情影响人群流动不确定的背景下,北京大学和中国联通智慧足迹团队(人类活动与区域治理大数据实验室)首次采用全国尺度的百亿级(包含往年及 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20