删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

机器学习设计新型有机分子研究进展

本站小编 Free考研考试/2022-02-14

摘要/Abstract



新型有机分子一直是有机化学领域的研究重点, 其在开发高性能材料方面具有重要意义. 传统的有机分子发现是一个类似于“炒菜”的试错过程, 它耗时耗能且效率相对低下. 常见的量子化学方法试图根据期望属性值筛选出合理的分子结构, 以更好地指导实验, 然而, 由于计算资源相对于算法复杂度严重不足, 精确给出实验指导在大多数情况下难以实现. 近年来机器学习的出现改变了这种情况, 训练好的模型可以快速推测出分子的属性. 更令人兴奋的是机器学习可以逆向进行分子设计, 拓宽人类的想象力, 给出其在分子设计领域的“神之一手”. 本综述首先介绍了逆向分子设计所必须的分子描述方式, 随后对几种常见的深度生成模型加以归纳, 对新型有机分子设计研究现状进行了总结, 最后探讨了新型有机分子设计所面临的挑战, 展示了笔者做出的部分探索.
关键词: 机器学习, 生成模型, 逆向分子设计, 分子描述, BASE64编码
Low-cost and high-performance materials have become more and more important in past decades. It exhibits the technology level of a country. Chemists used to find the candidate material according to property regression and quantitative structure activity relationship (QSAR). Traditional methods focus on finding new molecule from prior knowledge with trial and error experiments. They are time-consuming and low efficiency on screening molecules. The appearance of machine learning (ML) changes this embarrassing situation in two ways. One is accelerating the property prediction process to prevent wasting time on worse candidates. The other is inverse molecule design which expands the imagination of human. Lots of researches show promising results using different inverse design method such as, variational auto-encoder (VAE), generative adversarial networks (GAN), reinforcement learning (RL), and recurrent neural network (RNN). They introduce uncertainty from different level to generate new structure candidates. In any method, molecule descriptor has a great impact on the result. The descriptor converts the 3D structures in real world to a vector or a notation string to feed into all kinds of ML models. Large number of descriptors have been developed in cheminformatic, bioinformatic, quantum chemistry and natural language process (NLP). Some classical descriptors are Coulomb matrix (CM), smooth overlap of atomic positions (SOAP), weighted graph (WG), simplified molecular input line entry specification (SMILES). They show different advantages and solving problems from different aspects. CM has clear definition and good result on energy regression. SOAP is good at reflecting local environment features of an atom. However, they are easy to encode but hard to decode. That is a reason why people prefer WG and SMILES in the structure inverse design tasks. WG and SMILES express structure as a graph (an atom as a node and a bond as an edge) or string to apply massive mature GNN or NLP algorithm on them. Nowadays, most of the ML applications on chemistry and molecule science are focus on developing new model to regress properties. However, it is thought that there is still large improving space on inverse design methods and traditional descriptors. In this paper, WG and SMILES are briefly introduced firstly. Then, four generative models are presented, including VAE, GAN, RL and RNN. Further, the current progress and challenges of inverse design methods are summarized case by case. Finally, some of the author՚s understanding and explorations are given out. It is proved that SMILES with BASE64 preprocessed shows some advantages on molecular reconstruction and worth to study deeply in future.
Key words: machine learning, generative model, inverse molecule design, molecule description, BASE64 encoding


PDF全文下载地址:

点我下载PDF
相关话题/设计 实验 计算 资源 化学

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 苯亚磺酸钠和叔胺电化学耦合生成β-氨基乙烯砜
    摘要/Abstract&-氨基砜是一种特别有用的生物活性分子的骨架.&-氨基乙烯基砜加氢法是合成&-氨基砜的一种简便、高效的方法.提出了一种以苯亚磺酸钠和叔胺为底物的电化学法合成&-氨基乙烯基砜.在无金属催化剂和无氧化剂的条件下,仅合成 ...
    本站小编 Free考研考试 2022-02-14
  • 蜈蚣毒素多肽RhTx的高效化学合成及复性折叠研究
    摘要/Abstract二硫键的氧化折叠是合成二硫键构象锁定多肽的关键步骤.前人发展的二硫键氧化折叠策略主要有一次氧化折叠、多次氧化折叠和一锅法氧化折叠.目前对三种策略复性效率和收率等的比较性研究较少.分别采用三种氧化折叠策略制备目标蜈蚣毒素多肽RhTx.结果表明,两次氧化折叠策略的分离收率高于一次和 ...
    本站小编 Free考研考试 2022-02-14
  • 苯并咪唑并氮杂糖的设计、合成及其糖苷酶抑制活性
    摘要/Abstract鉴于前期研究发现的源于D-核糖的苯并咪唑并氮杂糖1和2具有良好的&-葡萄糖糖苷酶抑制活性,通过关键的Mitsunobu反应,设计合成了系列新型L-核糖源和2-脱氧-D-核糖源的苯并咪唑并氮杂糖衍生物6a~6c和7a~7c;并依据电子等排的药物设计方法,设计了系列 ...
    本站小编 Free考研考试 2022-02-14
  • 毛华菊中倍半萜内酯类化学成分研究
    摘要/Abstract采用溶剂提取法,DiaionHP-20、SephadexLH-20葡聚糖凝胶、硅胶及制备高效液相等色谱方法,对毛华菊的化学成分进行分离纯化,并利用现代波谱技术对已分离得到的化合物进行结构鉴定.从毛华菊的氯仿部位分离得到4个新化合物,其结构类型属于愈创木内酯衍生物,分别命名为(1 ...
    本站小编 Free考研考试 2022-02-14
  • 连续流动电化学促进的Aza-Wacker环化反应
    摘要/AbstractPDF全文下载地址:点我下载PDF ...
    本站小编 Free考研考试 2022-02-14
  • 电化学催化三组份合成4-硒醚化吡唑化合物
    摘要/AbstractPDF全文下载地址:点我下载PDF ...
    本站小编 Free考研考试 2022-02-14
  • 天然药物小檗碱的化学合成研究进展
    摘要/Abstract小檗碱(Berberine,BBR)是一种重要的天然药物,是具有独特四环结构的异喹啉类生物碱.近年来药理学研究发现,小檗碱有望用于肿瘤及糖尿病等多发病的临床治疗.结合Woodward等提出的生源合成理论,综述了截至目前已报道的小檗碱的全合成策略与方法.关键词:天然药物,小檗碱, ...
    本站小编 Free考研考试 2022-02-14
  • 水相中电化学促进铜催化苯甲醇氧化合成喹唑啉酮
    摘要/Abstract喹唑啉酮类化合物是一种重要的含氮杂环化合物,也是多种天然产物以及合成药物的骨架分子.利用廉价易得的苯甲醇以及邻氨基苯甲酰胺为原料,通过CuCl2和电流共同氧化苯甲醇,在室温条件下于水相中一锅法合成喹唑啉酮及其衍生物,目标化合物可获得中等至优秀的产率.该方法用电流代替价格昂贵、毒 ...
    本站小编 Free考研考试 2022-02-14
  • 电化学介导的S—N键形成: 次磺酰胺化合物的简洁合成
    摘要/Abstract通过电氧化苯硫酚和胺合成了一系列次磺酰胺化合物.该电合成反应无需金属催化剂和氧化剂,采用简单的装置如单室电解槽,并且使用恒电流电解,具有底物范围广、原料简单易得、操作简便和环境友好等优点,为结构多样的次磺酰胺的合成提供了简洁的新策略.关键词:次磺酰胺,有机电合成,S ...
    本站小编 Free考研考试 2022-02-14
  • 新型蓝萼甲素-噻唑类衍生物的设计、合成与生物学评价
    摘要/Abstract蓝萼甲素(GlaucocalyxinA,GLA)是从蓝萼香茶菜中分离得到的四环二萜类活性天然产物.设计并合成了一系列基于蓝萼甲素的噻唑类衍生物,评估了它们对六种肿瘤细胞(HepG2,NCI-H460,JEG-3,K562,HL-60和Hela)的增殖抑制活性.结果表明在GLA的 ...
    本站小编 Free考研考试 2022-02-14