删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于计算机技术的材料研发方法概述

本站小编 Free考研考试/2022-01-02

郭佳龙,1,2, 王宗国,1,2,*, 王彦棡,1,2, 赵旭山,1, 宿彦京,3, 刘志威,1,21.中国科学院计算机网络信息中心,北京 100190
2.中国科学院大学,北京 100049
3.北京科技大学新材料技术研究院,北京 100083

A Review of Material Research and Development Methods Based on Computer Technology

GUO Jialong,1,2, WANG Zongguo,1,2,*, WANG Yangang,1,2, ZHAO Xushan,1, SU Yanjing,3, LIU Zhiwei,1,21. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
3. Institute for Advanced Materials and Technology, University of Science and Technology Beijing, Beijing 100083, China

通讯作者: *王宗国(E-mail:wangzg@cnic.cn

收稿日期:2020-12-11网络出版日期:2021-04-20
基金资助:国家自然科学基金青年基金.51802312
国家自然科学基金青年基金.51701208
中国科学院信息化专项.XXH13506-410
中国科学院前沿科学重点研究计划.ZDBS-LY-7025


Received:2020-12-11Online:2021-04-20
作者简介 About authors

郭佳龙,中国科学院计算机网络信息中心,硕士研究生,主要研究方向为材料信息学。本文承担工作为文献的搜集整理以及整体内容的撰写。
GUO Jialong is a master student of Com-puter Network Information Center, Chin-ese Academy of Sciences. His major research field is material informatics.
In this paper, he is responsible for collective literature reviews and thesis writing.
E-mail: guojialong@cnic.cn


王宗国,中国科学院计算机网络信息中心,副研究员,主要研究方向为材料信息学。
本文承担的工作为架构构建和论文的指导。
WANG Zongguo is an associate professor of Computer Network Information Center, Chinese Academy of Sciences. Her major research field is material informatics.
In this paper, she is responsible for the construction of the architecture and the guidance of the paper.
E-mail: wangzg@cnic.cn


王彦棡,中国科学院计算机网络信息中心,研究员,主要研究方向为人工智能算法与应用软件。
本文承担的工作为思路凝练和论文的指导。
WANG Yangang is a professor of Com-puter Network Information Center, Chinese Academy of Sciences. His major research field is artificial intelligence algorithm and application software.
In this paper, he is responsible for the abstraction of ideas and the guidance of the paper.
E-mail: wangyg@sccas.cn


赵旭山,中国科学院计算机网络信息中心,高级工程师,主要研究方向为材料信息学。
本文承担的工作为文章框架设计。
ZHAO Xushan is a senior engineer of Computer Network Information Center, Chinese Academy of Sciences. His major research field is material informatics.
In this paper, he is responsible for designing the article frame-work.
E-mail: xushan.zhao@hotmail.com


宿彦京,北京科技大学,教授,主要研究方向为材料数据科学与应用、材料氢脆与应力腐蚀微观机理。
本文承担的工作为论文整体指导。
SU Yanjing is a professor of University of Science and Technology Beijing. His major research directions are material data science and appli-cation, hydrogen embrittlement and micro mechanism of stress corrosion.
In this paper, he is responsible for the guidance of the paper.
E-mail: yjsu@ustb.edu.cn


刘志威,中国科学院计算机网络信息中心,硕士研究生,主要研究方向为材料信息学。
本文承担工作为文献的搜集。
LIU Zhiwei is a master student of Com-puter Network Information Center, Chinese Academy of Sciences. His major research field is material informatics.
In this paper, he is responsible for literature collection.
E-mail: liuzhiwei@cnic.cn



摘要
【目的】随着大数据时代的到来和材料基因组计划的提出,材料的研发模式开始由“试错法”向科学研究第四范式转变。本文主要针对新材料研发模式中涉及的计算机技术进行概述。【方法】作者跟踪调研了近年来材料计算科学和数据驱动材料研发的文献资料,对计算机技术在材料研发中的应用进行了总结和讨论。【结果】以材料计算科学和“数据+人工智能”驱动为基础的创新模式,可以显著提升材料研究效率,从多维度、新角度探索材料多参数或性能之间的关联关系。【结论】计算机技术在材料研发中的广泛应用对加快新材料研发、加深对材料的认知以及关键技术的突破具有重要意义。
关键词: 材料信息学;机器学习;数据驱动

Abstract
[Objective] With the advent of the era of big data and the proposal of the Materials Genome Initiative, the research and development mode of materials has experienced a fundamental transformation from "trial and error" to the fourth paradigm of material science. This paper aims to summarize the computer technologies involved in this new materials research mode. [Methods] Based on the literatures on material computation and data-driven techniques in recent years, the paper summarizes and discusses the application of computer technologies in material research and development. [Results] The innovation mode marked by “data + artificial intelligence” and computational material science can improve the efficiency of material research significantly, and can explore the relationship between various material parameters and performance from multi-dimensional perspectives. [Conclusions] The application of computer technologies is of great importance to material research in accelerating progress, improving material understandings, and key technology breakthroughs.
Keywords:material informatics;machine learning;data driven


PDF (10337KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
郭佳龙, 王宗国, 王彦棡, 赵旭山, 宿彦京, 刘志威. 基于计算机技术的材料研发方法概述. 数据与计算发展前沿[J], 2021, 3(2): 120-132 doi:10.11871/jfdc.issn.2096-742X.2021.02.014
GUO Jialong, WANG Zongguo, WANG Yangang, ZHAO Xushan, SU Yanjing, LIU Zhiwei. A Review of Material Research and Development Methods Based on Computer Technology. Frontiers of Data and Computing[J], 2021, 3(2): 120-132 doi:10.11871/jfdc.issn.2096-742X.2021.02.014


引言

当前,计算机科学技术的飞速发展为材料科学的创新突破带来了前所未有的契机。高性能计算机使计算材料科学成为继实验科学和理论科学后的材料研究“第三范式”。而随着数据科学和人工智能技术应用的不断深化,基于“材料基因组”提出的材料信息学正在成为材料科学中具有开拓性、新的重要分支。这种以数据驱动[1]的研发模式,被称为材料研究的“第四范式”。作为近年来发展起来的新研究范式,计算材料科学和数据驱动材料研究方法都与计算机技术密切相关。

“材料基因组”计划明确了驱动新材料发现的三大核心,即计算、实验和数据。其中,高通量计算和高通量制备与表征分别是计算和实验的关键技术,基于高通量技术可以在短时间内并行获得大量材料数据,成为新材料快速筛选、理性设计和数据库建设的重要基础。超级计算机的高性能并行计算能力和数据处理能力是高通量计算技术实现的决定性因素。“高通量”重点强调材料研发工具的并行化和自动化[2],在一定流程框架内将大量复杂的材料计算任务并行交付给超级计算机,将显著提高材料研发效率、降低研发成本。

近年来,以机器学习为代表的人工智能理论和技术取得了迅猛发展和广泛应用,这为材料科学家们带来了材料研发的新启示,特别为解决材料数据产生与知识提取之间的问题提供了可能的解决途径[2],成为数据驱动材料科学发展的技术基础。利用人工智能技术对基于高通量计算和高通量实验产生的大量数据进行多维度解析和多参数耦合,可以从新角度挖掘材料“成分-工艺-组织-性能”的跨尺度关系和材料内禀机理,为材料研究和新材料发现提供了新思路。

本文将围绕材料计算科学和数据驱动材料研发两种范式所涉及的计算机技术进行综述和讨论。重点从材料计算数据处理工具和平台、机器学习算法工具和材料研发、材料数据库和典型应用等三个方面展开,以期为计算机技术和材料科学研究的交叉融合提供有价值的参考。

1 材料计算工具和平台

随着高性能计算机硬件水平的快速提高和材料研发对材料理论计算需求的不断增加,以量子力学第一性原理、分子动力学等为代表的材料计算方法在材料研究工作中得到越来越广泛的应用。长期以来,国内外开发人员编写出了一系列材料计算软件工具,其中一些软件已经发展得非常成熟。如第一性原理计算软件VASP,、ABINIT,、Quantum Espresso等,和分子动力学模拟软件Lammps、 Gromacs等。为更便捷、高效地利用计算软件开展材料研发工作,人们设计出一系列数据处理软件工具和科学工作流,并进一步开发出具有批量化和自动化功能的高通量计算平台。

1.1 材料计算数据处理工具

计算材料科学所涉及的不同材料计算专业软件有不同的输入/输出格式,以及针对性的数据解析方式。以往从事材料计算的科研人员一般采用人工手动方法进行大量计算数据的处理和解析,费事费力。借助软件工具可以实现材料结构和性质数据信息的读写、格式转换和解析等,大大提高研发工作效率。目前国际上具有代表性的材料计算数据处理和解析工具包括Shyue Ping Ong等开发的开源软件包Python Materials Genomics (Pymatgen) [3]、Anubhav Jain研究组开发的Atomate [4]以及多研究组共同开发的Atomic Simulation Environment(ASE)[5]等。

Pymatgen是一个基于python语言的材料高通量计算软件包,功能非常强大。它支持VASP、ABINIT、Gaussian等计算软件的多种输入/输出格式,同时支持CIF、XYZ等多种材料晶体结构文件格式。它可以对第一性原理计算得到的能带、电子态密度等电子结构数据直接进行数据提取和处理,还可以实现相关联的不同类计算任务结果的复合解析和数据处理。并且,它能提供元素、点位、分子、结构等各种数据的不同表征方式。此外,Pymatgen的函数已经封装到计算平台Materials Project使用。

Atomate是一个用于材料仿真、性质分析以及设计的开源python框架。它整合了Pymatgen、FireWorks和custodian等工具为用户提供了强大的数据处理和解析功能,可用于电子能带结构、塑性性质和压电性等方面的性质计算和结果分析。

Atomic Simulation Environment(ASE)集合了一系列用于创建、控制、运行、可视化以及分析原子模拟的工具。其具有易于使用、灵活和可定制化等方面的特点。

Pymatgen和Atomate等工具对材料领域中涉及的计算和结果分析方法进行了整理,再将这些方法以模块化和系统化的方式提供给用户使用。这些工具降低了材料研究者的编程门槛,减少了大量的重复计算编程的工作。同时,此类工具具有强的可扩展性,随材料科学的发展而不断完善。

1.2 科学工作流

科学工作流在材料的性质计算以及数据分析中均有应用。在材料研究中,大部分的材料计算任务具有标准流程,将这些标准流程进行程序化处理,形成通用的科学工作流程可以提高研究人员的研发效率。目前,科学工作流已被多个材料计算平台使用。材料计算平台AiiDA[6]中通过引入科学工作流,使复杂的数值计算过程可以被自动化执行,同时实现不同计算任务之间的数据共享;Materials Project[7]中使用了FireWorks[8]实现对工作流的管理,以达到计算任务自动执行的目的。科学工作流的主要特点如图1(a)所示。其一,可自动的完成材料结构到性质数据的计算;其二,可对计算过程进行实时监控和自动纠错。工作流的结构可以看作由多个节点组成的有向图(如图1(b)),每个节点可以看作一步计算、操作或一个子流。并且,其支持循环操作,可根据设定的终止条件结束迭代。

图1

新窗口打开|下载原图ZIP|生成PPT
图1(a)科学工作流功能示意图;(b)工作流结构示意图

Fig.1(a) Function diagram of scientific workflow; (b) Structure diagram of workflow



1.3 材料计算平台

为满足材料计算批量化和自动化的需求,研究人员通过计算机技术集成各种材料计算软件和代码,结合材料分析工具,建成高通量材料计算平台。如图2所示,计算平台对各个资源进行管理调度,便于材料工作者获取和分析材料数据。目前国内外已经形成了多个高通量材料计算平台。代表性的有高通量材料发现计算流程平台AFLOW [9,10]、自动化交互式计算流程平台AiiDA 、高通量材料集成计算与数据管理平台MatCloud [11] 、第一性原理高通量计算平台Materials Informatics Platform[12]、以及针对特定材料体系或特定性质计算平台Pylada[13]和MPInterfaces[14]等。

图2

新窗口打开|下载原图ZIP|生成PPT
图2计算平台架构示意图

Fig.2Diagram of computing platform architecture



AFLOW是基于第一性原理计算软件VASP的高通量材料计算框架。同时,AFLOW建立了基于AFLOW的数据库AFLOWLIB和开发用于支持AFLOW的解析工具。该平台支持力学、磁学、热动力学以及电子结构等性质的计算。

AiiDA是一个用于计算科学领域的自动化交互基础设施和数据库。其是介于用户与高性能计算机集群之间的一个中间层。用户可以通过API来与平台进行交互。该平台是以ADES模型为指导设计而成的工作平台,设计涵盖了自动化、数据、环境和共享四个部分。

MatCloud是一个用于材料模拟的高通量计算框架。它的设计目的是让材料研究者们便捷地进行材料仿真计算,获取所需的材料性质数据。MatCloud提供了一系列的工作流模板供用户直接使用。此外,MatCloud设计了图形用户界面让用户能便利的设计自己的工作流。

Materials Informatics Platform[12]是一个第一性原理高通量计算平台。它实现了结构查询、自动化计算、以及功能性质展示等一系列高通量标准流程。

Pylada是一个用于物理仿真的模块化python框架。它的目标是提供基本的构造块,从中可以构造包含不同哈密顿量的方法。Pylada通过这些构造块使用户能方便地计算声子或生成焓。

MPInterfaces是一个用于界面体系高通量计算筛选的工具。它可用于固体/固体杂化结构、固体/隐式溶剂系统以及纳米颗粒/配位系统界面结构的创造和操作。

1.4 材料计算平台的发展与思考

材料计算平台作为一个集成平台,需要集成计算模型和理论方法、数据信息与可视化、工作流程和组织框架、计算基础设施等多方面要素。其中计算模型和理论方法是影响材料体系的处理能力以及材料计算的准确性等的重要因素。目前大多数材料计算平台的计算模型和方法都以商业软件为主,如第一性原理计算软件VASP等,因此,在材料计算平台发展中不仅需要构建多层次材料计算和预测平台,还需要进一步整合现有成熟的计算算法和程序开发队伍,开发具有自主知识产权的第一性原理计算软件,摆脱国外垄断和限制,创建多学科交叉人才队伍,共同促进平台的生态建设。

2 机器学习算法与工具和材料研发

基于密度泛函理论的材料计算可以准确预测材料的结构和基态性质,但是随着材料尺度的增加,计算成本呈指数增长,甚至超出超级计算机的处理能力。随着材料数据的不断积累以及人工智能技术的发展,材料科学的研究也出现了新的契机。机器学习可以从纷繁的数据中获取背后的关系。机器学习算法在材料领域应用的一个主要目的是用来弥补传统方法难以处理大尺度的计算问题等劣势。机器学习的显著的优势[2, 15]体现在几个方面。首先,相较于人为制定规则,机器学习可以从数据中提取适应于机器的规则;其次,机器学习可以减少计算的复杂度、提高预测的精度。因此,机器学习在材料成分-结构-性质三者关系的研究以及高维材料数据可视化[16]、工艺优化[17,18,19]等其他方面均取得了很好地效果。

目前国际上也已经公开报道了多种机器学习软件包,按其任务类型可分为三类:第一类为通用类软件包,如scikit-learn、TensorFlow/Keras、PyTorch/Caffe2、Weka等,此类软件包的应用与数据源无关,只需按其定义好的格式输入数据即可完成模型构建和训练;第二类为材料性质预测机器学习软件包,如AFLOW-ML [20]、MatMiner [21]、COMBO [22]、Magpie、PROPhet [23]、OMDB-ML等,协助使用者方便快捷开展材料信息技术研究,包括提供基本的材料物理化学性质信息、针对材料成分和结构等信息的特征提取以及特征向量转换、推荐算法开展模型训练或验证等;第三类为构建原子势函数的专用机器学习软件包,如aenet[24,25,26]、DeepMD-kit [27]、AMP[28]、TensorMol [29]、GAP/SOAP等。

机器学习用于材料科学研究的实现可概括为四个步骤[19],如图3。第1步,材料数据集构建和整理。数据集的获取方式主要有两种,从已有的材料数据库中搜集和通过实验或计算方式自行产生数据集。数据集的整理包括数据清理、数据格式整理等。第2步,特征描述符确定,包括特征提取,特征选择和特征学习等。目前也开发了一部分如MatMiner等的辅助工具,用于选择和提取材料的特征。第3步,模型构造和训练。研究人员选择合适的机器学习算法建立材料特征之间的映射关系。这一步中所用的机器学习算法通常属于监督学习的范畴,包括了脊回归[30,31]、支持向量机[32]、决策树、人工神经网络[33]和集成学习等算法。第4步,模型验证和使用。这一步对第3步训练的模型进行验证,为投入实际生产做准备。机器学习在材料科学领域的应用可以概括为两个方面:材料的性质预测、新材料设计两个方面。

图3

新窗口打开|下载原图ZIP|生成PPT
图3基于机器学习的材料性质研究步骤示意图

Fig.3The step of materials property research based on machine learning



2.1 性质预测

机器学习直接从大量已知的材料数据出发,通过神经网络,确定不同物理化学参数之间的关系,从而预测材料性质。机器学习提高了材料预测的效率,因此在不同类别的材料中得到了广泛的应用。机器学习算法在双钙钛矿结构的带隙预测[34]、钙钛矿结构的高温导热率的预测[35]以及可再生能源材料的吸附结合能预测[36]等都取得了很高的准确率。除了建立单一参量相关的简单模型以外,机器学习也已经实现了对材料多个性质的耦合预测[37]。此外,研究人员在材料性质的预测中,不仅实现了材料从结构到性质的关联,而且还实现了材料性质之间的关联关系建立。例如,PROPhet是基于机器学习的材料研究软件工具,其用神经网络获得材料各性质之间的关系,达到由易获得的材料性质数据预测难以获得的材料性质的目的。Gabriel Sigmund [38]等人采用了深度神经网络对碳吸附剂有机的带极性的有机污染物的吸附作用进行了研究。其特点在于应用神经网络预测吸附平衡模型Freundlich isotherm中两个常数的值,从而可以由获取的常数值确定各浓度下吸附剂的吸附作用。

近年来,研究人员更为关注预测模型的可解释性。他们期望以数据驱动的方式得到一些公式性的描述符关联相关性质,从公式中推导潜在的物理化学规律,提高模型的可解释性。SISSO[39]是其中一种从特定特征空间搜索描述目标性质的重要特征的方法。Bartel[40]等人通过SISSO方法给出了钙钛矿材料的新容忍因子,R Ouyang[41]通过SISSO方法给出了预测钙钛矿材料带隙值的描述符。此外,符号回归的方法也可发现特征变量和目标性质之间的隐藏关联数学公式, 如被用于预测材料的晶格热导率[42]

2.2 新材料发现和设计

除了预测材料性质以外,获取新材料结构也是材料研究的一个重要工作。结构设计分为正向和逆向两种。正向设计为直接从批量结构中筛选合理结构。例如,为从元素周期表中直接设计出所需要的材料,Keisuke Takahashi [43]提出了一种从元素周期表出发设计材料合成的流程。将所有可能的元素以及结构组合,利用第一性原理计算产生初始材料数据集进行模型训练,利用模型寻找优质结构从而实现新材料的设计。Meredig B[44]等人利用启发式模型和机器学习模型的组合来预测三元化合物的形成能并对材料的稳定性分级,从候补的大量材料中筛选出稳定的化合物。

逆向材料设计指的是从目标性质出发反向确定材料结构。在材料逆向设计过程中,结构的生成和评估是两个重要步骤[45]。Piyush M. Tagade [46]等人基于贝叶斯框架提出了一套新材料结构预测模型,利用受限玻尔兹曼机对ASCII码编码的分子结构的合理性进行概率计算,利用结构与性能之间的关系计算该结构满足目标性能的概率,通过上述两个概率,设计新材料结构。Mitsutaro Umehara [47]等人还提出了利用材料特征值的导数的大小作为模型训练特征值筛选条件,提高结构预测模型的预测效果。

此外,主动学习的方法也被用于新材料的发现。这种方法通过机器学习算法与人工标注相结合的方式指导实验,以较少的实验次数获取模型最优解,减少了实验探索空间,加速新材料的发现。Kusne[48]等人通过主动学习方法设计了一个闭环的新材料探索系统加速相图以及材料性质的优化,发现了一种新纳米复合相变记忆材料。Miao Zhong[49]等人使用主动学习加速了CO2电催化剂的发现。

2.3 机器学习应用中的问题和思考

机器学习算法擅长于分析数据、发现规律和建立联系,机器学习方法的引入对加快材料研究起到重要作用。同时,机器学习方法在实际应用中仍面临一些问题。首先,机器学习应用的基础是有充足可靠的数据集,其次,机器学习模型在应用时存在适用性和准确性的问题。最后,机器学习训练的模型要具有可解释性。针对数据集不足的问题,可以考虑小样本数据加入领域知识来达到较好的训练效果[50],或者采用随机采样或拆分的方法扩充数据集[51,52]。对于不同的研究问题,各机器学习模型的适应性和准确性存在差异。研究人员可通过各机器学习模型对比验证的方式筛选出最优的模型[53]。对于模型的可解释性问题,人们一方面需加强对SISSO和符号回归此类可解释的机器学习方法的研究,另一方面可通过从机器学习模型推断输入特征重要性的方式提高对性质预测机理的认知。

3 材料数据库

3.1 材料数据库现状

数据库与计算机技术密切相关。数据记录也经历了从纸张存档到计算机存储的漫长过程。计算机的出现使得材料数据的储存更为方便快捷[54],Granta开发的“剑桥选材系统CMS”便是早期一个具有代表性的离线型材料数据库[55]。材料数据库收集并储存了利用计算和实验获取的大量材料结构和性能的原始数据,以及后续一些由计算机仿真软件产生的衍生数据。材料数据库可为研究者们提供数据的检索、提取、分析等功能,旨在促进材料相关数据的共享以及新材料的设计和发现。

数据是材料基因组工程的要素之一,各国都十分重视材料数据库的建设[56]。在美国,国家标准技术院(NIST)中Materials Data Facility[57,58]收集的实验和模拟数据量已达到45 TB,Materials Project [59,60]、OQMD [61]和AFLOWLIB [62]等通过第一性原理高通量计算收录了超过280万种化合物数据,MatWeb [63]提供了包含金属、高分子、陶瓷和复合材料等超过13.5万种材料的数据库。瑞士的Pauling File [64]数据库,收录了4.6万余条相图数据、32万条晶体结构数据、12.5万余条物理性能数据,是世界上最大的无机化合物数据库;日本国立材料研究所(NIMS)建设的MatNavi数据库[65]由聚合物、无机材料、金属材料和第一性原理电子结构四个子数据库组成。此外,还有一些专用数据库,如晶体结构数据库ICSD [66,67]、CRYSTMET [68]和COD [69]等,拓补材料数据库Materiae(http://materiae.iphy.ac.cn/)和topological Materials Database (https://topologicalquantumchemistry.org/#/)等,声子谱数据库Phonon Database(http://phonopy. github.io/phono3py/),光伏电池材料的数据库Harvard Clean Energy Project Database[70]

储存架构是材料数据库设计的一个重点。一方面,材料数据库基于不同的设计需求其数据储存架构有所不同。Materials Project数据库中将数据分为了tasks、materials和analysis data三个层次[7]。Tasks和materials分别储存计算相关信息和单个材料的性质信息。而analysis data中按应用综合了多个materials信息,为类似电池电极材料的研究等具体应用提供了便利。Materials Clouds是基于AiiDA平台建立的一个材料数据库。该平台用有向无环图的形式来记录数据,可更好的实现数据的共享与复现。同时,它支持图的两节点之间路径的查询,可便于研究人员根据性质探究结构[6]。Materials Commons[71]将数据按样本信息、操作、性质等类别分成了几个集合,为研究材料的工艺-结构-性质之间的关系,获取结构对性能影响以及工艺对结构的影响等材料知识提供了便利。另一方面,材料数据库均考虑到数据的储存与查询这两点。针对材料数据复杂多样的特点,Materials Project和Materials Commons这两个数据库均采用了文档型数据库来实现数据的更新。AiiDA采用的是SQL数据库,其设置了节点标签的表格,键和值两列用于实现字典形式数据的存储,以达到可灵活添加材料性质数据的目的。而在查询方面,Materials Project和Materials Commons分别采用MongoDB和RethinkDB提供的查询语言实现,AiiDA适用SQL进行数据查询。此外,AiiDA为实现两节点之间的路径查询,创建了记录不同节点路径的信息的表格用于此类查询。

3.2 材料数据库发展思考

随着数据量的增大,材料数据库在构建和使用方面也遇到了一些问题。主要有以下几个方面,首先,各材料数据库之间的数据共享的问题。材料数据库由于材料的数据的复杂性往往存在着多种类型,其数据的储存格式也存在差异,这使得不同材料数据库之间互相访问存在着困难。针对不同数据库之间的访问问题,文献[2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73]中提出了建立标准的API、构建数据规范等方法。但是,方案的实现还需解决一些技术问题,如明确各数据库的数据获取方法、确定与各数据库的交互方式和制定合理的数据输出格式等。其次,高效数据检索是材料数据库面临的一个难题。数据的储存方式可影响数据的查询效率。材料数据库可根据其设计目的策划数据储存方式,为其相关特色的查询提供便利。最后,材料数据库未来的一个重要应用是材料数据的挖掘。当前,材料数据的产生速度显著提高,大量的材料数据储存于材料数据库中。但材料数据潜在的价值并未被充分使用[74]。因此,许多材料数据库已注重数据挖掘,使材料数据库中的数据得到充分利用。而随着人工智能的发展,机器学习已经成为一个主要的数据挖掘的工具。OQMD、AFLOW和NOMAD[75]等数据库中均引入了机器学习算法,加速材料知识的挖掘。

4 总结

本文对当前计算机技术在材料研发中的应用现状和重要作用进行了详细的阐述,介绍了当前分析和管理材料数据所使用的一些软件工具和平台、机器学习算法在材料研发中的应用,以及目前已有的材料数据库的建设和使用情况。基于材料计算模拟专业软件工具和科学工作流建设高通量计算平台,为机器学习的模型训练提供大量的材料数据。应用机器学习算法,可以从数据集中挖掘出材料数据中的隐藏规律、降低计算成本。基于材料数据库建设,对材料数据进行集成管理,为材料数据信息的规范化、长期积累和深度应用创造了基础和条件。以上涉及了高通量、自动流程、高并行化等计算处理技术,还需要数据库技术和数据分析等方法。计算机技术为材料科学的发展,尤其为材料基因组计划的实施提供了重要的技术支撑和保障,并将在未来材料科学与工程中发挥越来越大的作用。

利益冲突声明

所有作者声明不存在利益冲突关系。

参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子

AGRAWAL A, CHOUDHARY A. Perspective: Materials informatics and big data: Realization of the “fourth paradigm” of science in materials science
[J]. APL Materials, 2016,4(5):053208.

DOI:10.1063/1.4946894URL [本文引用: 1]

SCHLEDER G R, PADILHA A C M, ACOSTA C M, et al. From DFT to Machine Learning: recent approaches to Materials Science - a review
[J]. Journal of Physics: Materials, 2019,2(3).

[本文引用: 4]

ONG S P, RICHARDS W D, JAIN A, et al. Python Materials Genomics (pymatgen): A robust, open-source python library for materials analysis
[J]. Computational Materials Science, 2013,68:314-319.

DOI:10.1016/j.commatsci.2012.10.028URL [本文引用: 2]

MATHEW K, MONTOYA J H, FAGHANINIA A, et al. Atomate: A high-level interface to generate, execute, and analyze computational materials science workflows
[J]. Computational Materials Science, 2017,139:140-152.

DOI:10.1016/j.commatsci.2017.07.030URL [本文引用: 2]

ASE-Developers. Atomic Simulation Environment
[EB/OL]. [2020-11-1]. https://wiki.fysik.dtu.dk/ase/about.html.

URL [本文引用: 2]

PIZZI G, CEPELLOTTI A, SABATINI R, et al. AiiDA: automated interactive infrastructure and database for computational science
[J]. Computational Materials Science, 2016,111:218-230.

DOI:10.1016/j.commatsci.2015.09.013URL [本文引用: 3]

ONG S P, CHOLIA S, JAIN A, et al. The Materials Applica-tion Programming Interface (API): A simple, flexible and efficient API for materials data based on REpresentational State Transfer (REST) principles
[J]. Computational Materials Science, 2015,97:209-215.

DOI:10.1016/j.commatsci.2014.10.037URL [本文引用: 3]

JAIN A, ONG S P, CHEN W, et al. FireWorks: a dynamic workflow system designed for high-throughput applications
[J]. Concurrency and Computation: Practice and Experi-ence, 2015,27(17):5037-5059.

[本文引用: 2]

CALDERON C E, PLATA J J, TOHER C, et al. The AFLOW standard for high-throughput materials science calcula-tions
[J]. Computational Materials Science, 2015,108:233-238.

DOI:10.1016/j.commatsci.2015.07.019URL [本文引用: 2]

CURTAROLO S, SETYAWAN W, HART G L W, et al. AFLOW: An automatic framework for high-throughput materials discovery
[J]. Computational Materials Science, 2012,58:218-226.

DOI:10.1016/j.commatsci.2012.02.005URL [本文引用: 2]

YANG X, WANG Z, ZHAO X, et al. MatCloud: A high-throughput computational infrastructure for integrated management of materials simulation, data and resources
[J]. Computational Materials Science, 2018,146:319-333.

DOI:10.1016/j.commatsci.2018.01.039URL [本文引用: 2]

杨炯, 席丽丽, 骆军, et al. 上海大学第一性原理高通量计算平台与材料应用案例
[C]. 北京: 北京科技大学, 2018.

[本文引用: 3]

Mayeul d'Avezac. Pylada [EB/OL]. [2020-11-1]. http://pylada.github.io/pylada/about.html.
URL [本文引用: 2]

MATHEW K, SINGH A K, GABRIEL J J, et al. MPInter-faces: A Materials Project based Python tool for high-throughput computational screening of interfacial systems
[J]. Computational Materials Science, 2016,122:183-190.

DOI:10.1016/j.commatsci.2016.05.020URL [本文引用: 2]

AGRAWAL A, CHOUDHARY A. Deep materials informatics: Applications of deep learning in materials science
[J]. MRS Communications, 2019,9(3):779-792.

DOI:10.1557/mrc.2019.73URL [本文引用: 2]

NUNEZ M. Exploring materials band structure space with unsupervised machine learning
[J]. Computational Materials Science, 2019,158(15 February 2019):117-123.

DOI:10.1016/j.commatsci.2018.11.002URL [本文引用: 2]

ABBOD M F, LINKENS D A, ZHU Q, et al. Physically based and neuro-fuzzy hybrid modelling of thermome-chanical processing of aluminium alloys
[J]. Materials Science and Engineering: A, 2002,333(1):397-408.

DOI:10.1016/S0921-5093(01)01873-1URL [本文引用: 2]

FANG S F, WANG M P, SONG M. An approach for the aging process optimization of Al-Zn-Mg-Cu series alloys
[J]. Materials & Design, 2009,30(7):2460-2467.

DOI:10.1016/j.matdes.2008.10.008URL [本文引用: 2]

HAN Y F, ZENG W D, SHU Y, et al. Prediction of the mechanical properties of forged Ti-10V-2Fe-3Al titanium alloy using FNN
[J]. Computational Materials Science, 2011,50(3):1009-1015.

DOI:10.1016/j.commatsci.2010.10.040URL [本文引用: 3]

GOSSETT E, TOHER C, OSES C, et al. AFLOW-ML: A RESTful API for machine-learning predictions of materials properties
[J]. Computational Materials Science, 2018,152:134-145.

DOI:10.1016/j.commatsci.2018.03.075URL [本文引用: 2]

WARD L, DUNN A, FAGHANINIA A, et al. Matminer: An open source toolkit for materials data mining
[J]. Computational Materials Science, 2018,152:60-69.

DOI:10.1016/j.commatsci.2018.05.018URL [本文引用: 2]

UENO T, RHONE T D, HOU Z, et al. COMBO: An efficient Bayesian optimization library for materials science
[J]. Materials Discovery, 2016,4:18-21.

DOI:10.1016/j.md.2016.04.001URL [本文引用: 2]

KOLB B, LENTZ L C, KOLPAK A M. Discovering charge density functionals and structure-property relationships with PROPhet: A general framework for coupling machine learning and first-principles methods
[J]. Sci Rep, 2017,7(1):1192.

DOI:10.1038/s41598-017-01251-zURL [本文引用: 2]

ARTRITH N, URBAN A. An implementation of artificial neural-network potentials for atomistic materials simulations: Performance for TiO2
[J]. Computational Materials Science, 2016,114:135-150.

DOI:10.1016/j.commatsci.2015.11.047URL [本文引用: 2]

ARTRITH N, URBAN A, CEDER G. Efficient and accurate machine-learning interpolation of atomic energies in compositions with many species
[J]. Physical Review B, 2017,96(1):014112.

DOI:10.1103/PhysRevB.96.014112URL [本文引用: 2]

COOPER A M, KAESTNER J, URBAN A, et al. Efficient training of ANN potentials by including atomic forces via Taylor expansion and application to water and a transition-metal oxide
[J]. Npj Computational Materials, 2020,6(1).

[本文引用: 2]

WANG H, ZHANG L, HAN J, et al. DeePMD-kit: A deep learning package for many-body potential energy representation and molecular dynamics
[J]. Computer Physics Communications, 2018,228:178-184.

DOI:10.1016/j.cpc.2018.03.016URL [本文引用: 2]

KHORSHIDI A, PETERSON A A. Amp: A modular approach to machine learning in atomistic simulations
[J]. Computer Physics Communications, 2016,207:310-324.

DOI:10.1016/j.cpc.2016.05.010URL [本文引用: 2]

YAO K, HERR J E, TOTH D W, et al. The TensorMol-0.1 model chemistry: a neural network augmented with long-range physics
[J]. Chem Sci, 2018,9(8):2261-2269.

DOI:10.1039/C7SC04934JURL [本文引用: 2]

DENG Y, ZENG H, JIANG Y, et al. Ridge regression for predicting elastic moduli and hardness of calcium aluminosilicate glasses
[J]. Materials Research Express, 2018,5(3):035205.

DOI:10.1088/2053-1591/aab723URL [本文引用: 2]

Liu L, Yan Y, Li J, et al. the Proceedings - 5th International Conference on Frontier of Computer Science and Technology: Predicting the Formation of Microporous Aluminophosphate AlPO4-5 Using Ridge Regression
[C]. Changchun: IEEE, 2010: 483-488.

[本文引用: 2]

Wu Y R, Li H P, Gan X S. SVM Regression Modeling Based on Properties of Engineering Materials with PLS Feature Extraction
[J]. Advanced Materials Research, 2014,848:122-125.

DOI:10.4028/www.scientific.net/AMR.848URL [本文引用: 2]

VAROL T, CANAKCI A, OZSAHIN S. Artificial neural network modeling to effect of reinforcement properties on the physical and mechanical properties of Al2024-B4C composites produced by powder metallurgy
[J]. Composites Part B-Engineering, 2013,54(8):224-233.

DOI:10.1016/j.compositesb.2013.05.015URL [本文引用: 2]

PILANIA G, MANNODI-KANAKKITHODI A, UBER-UAGAI B P, et al. Machine learning bandgaps of double perovskites
[J]. Scientific Reports, 2016,6(1).

[本文引用: 2]

ROEKEGHEM A, CARRETE J, OSES C, et al. High-throughput computation of thermal conductivity of high-temperature solid phases: The case of oxide and fluoride perovskites
[J]. Physical Review X, 2016,6(4):041061.

DOI:10.1103/PhysRevX.6.041061URL [本文引用: 2]

GU G H, NOH J, KIM I, et al. Machine learning for renewable energy materials
[J]. Journal of Materials Chemistry A, 2019,7(29):17096-17117.

DOI:10.1039/C9TA02356AURL [本文引用: 2]

LIU Y, NIU C, WANG Z, et al. Machine learning in materials genome initiative: A review
[J]. Journal of Materials Science and Technology, 2020,57:113-122.

DOI:10.1016/j.jmst.2020.01.067URL [本文引用: 2]

SIGMUND G, GHARASOO M, HUFFER T, et al. Deep Learning Neural Network Approach for Predicting the Sorption of Ionizable and Polar Organic Pollutants to a Wide Range of Carbonaceous Materials
[J]. Environ Sci Technol, 2020,54(7):4583-4591.

DOI:10.1021/acs.est.9b06287URL [本文引用: 2]

OUYANG R, CURTAROLO S, AHMETCIK E, et al. SISSO: a compressed-sensing method for identifying the best low-dimensional descriptor in an immensity of offered candidates
[J]. 2018,2(8):083802.

[本文引用: 2]

BARTEL C J, SUTTON C, GOLDSMITH B R, et al. New Tolerance Factor to Predict the Stability of Perovskite Oxides and Halides
[J]. Science Advances, 2019, 5(2):eaav0693.

DOI:10.1126/sciadv.aav0693URL [本文引用: 2]

OUYANG R. Exploiting Ionic Radii for Rational Design of Halide Perovskites
[J]. Chemistry of Materials, 2019,32:595-604.

DOI:10.1021/acs.chemmater.9b04472URL [本文引用: 2]

Loftis C, Yuan K, Zhao Y, et al. Lattice Thermal Conductivity Prediction using Symbolic Regression and Machine Learning
[J]. JPCA, 2021,125(1):435-450.

DOI:10.1021/acs.jpca.0c08103URL [本文引用: 2]

TAKAHASHI K, TANAKA Y. Material synjournal and design from first principle calculations and machine learning
[J]. Computational Materials Science, 2016,112:364-367.

DOI:10.1016/j.commatsci.2015.11.013URL [本文引用: 2]

MEREDIG B, AGRAWAL A, KIRKLIN S, et al. Combinatorial screening for new materials in uncon-strained composition space with machine learning
[J]. Physical Review B, 2014,89(9):094104.

DOI:10.1103/PhysRevB.89.094104URL [本文引用: 2]

RYAN K. Crystal Structure Prediction via Deep Learning
[D]. Florida: ProQuest LLC, 2018.

[本文引用: 2]

TAGADE P M, ADIGA S P, PANDIAN S, et al. Attribute driven inverse materials design using deep learning Bayesian framework
[J]. npj Computational Materials, 2019,5(1).

[本文引用: 2]

UMEHARA M, STEIN H S, GUEVARRA D, et al. Analyzing machine learning models to accelerate generation of fundamental materials insights
[J]. npj Computational Materials, 2020,4(4):135-143.

[本文引用: 2]

KusnE A. GILAD, YU HESHAN, WU CHANGMING, et al. On-the-fly closed-loop materials discovery via Bayesian active learning
[J]. Nature Communications, 2020,11(1).

[本文引用: 2]

ZHONG M, TRAN K, MIN Y, et al. Accelerated disco-very of CO2 electrocatalysts using active machine learning
[J]. Nature, 2020,581(7807):178-183.

DOI:10.1038/s41586-020-2242-8URL [本文引用: 2]

YANG Z, AL-BAHRANI R, REID A C E, et al. proceed-ings of the 2019 International Joint Conference on Neural Networks: Deep learning based domain knowledge integration for small datasets: Illustrative applications in materials informatics
[C]. Budapest: Institute of Electrical and Electronics Engineers Inc, 2019, 1-8.

[本文引用: 2]

IERACITANO C, PANTO F, MAMMONE N, et al. Toward an Automatic Classification of SEM Images of Nanomaterials via a Deep Learning Approach
[M]. // Springer Science and Business Media Deutschland GmbH. 2020: 61-72.

[本文引用: 2]

LI X, LIU Z, CUI S, et al. Predicting the effective mechanical property of heterogeneous materials by image based modeling and deep learning
[J]. Computer Methods in Applied Mechanics and Engineering, 2019,347(APR. 15):735-753.

DOI:10.1016/j.cma.2019.01.005URL [本文引用: 2]

游洋, 杜婉, 李惟驹, 陈竞哲. 基于机器学习方法的二维材料带隙预测
[J]. 上海大学学报(自然科学版), 2020,26(05):824-833.

[本文引用: 2]

李霞, 苏航, 陈晓玲, et al. 材料数据库的现状与发展趋势
[J]. 中国冶金, 2007,17(6):4-8.

[本文引用: 2]

PRICE D. Guide to materials databases
[J]. Materials World, 1993,1(7):418-422.

[本文引用: 2]

汪洪, 项晓东, 张澜庭. 数据+人工智能是材料基因工程的核心
[J]. 科技导报, 2018,36(14):15-21.

[本文引用: 2]

BLAISZIK B, CHARD K, PRUYNE J, et al. The Materials Data Facility: Data Services to Advance Materials Science Research
[J]. Jom, 2016,68(8):2045-2052.

DOI:10.1007/s11837-016-2001-3URL [本文引用: 2]

BLAISZIK B, WARD L, SCHWARTING M, et al. A data ecosystem to support machine learning in materials science
[J]. Mrs Communications, 2019,9(4):1125-1133.

DOI:10.1557/mrc.2019.118URL [本文引用: 2]

GUNTER D, CHOLIA S, JAIN A, et al. Community Accessible Datastore of High-Throughput Calculations: Experiences from the Materials Project
[M]. // 2012 SC Companion: High Performance Computing, Networking Storage and Analysis. Salt Lake: IEEE, 2012: 1244-1251.

[本文引用: 2]

JAIN A, ONG S P, HAUTIER G, et al. Commentary: The Materials Project: A materials genome approach to accelerating materials innovation
[J]. Apl Materials, 2013,1(1):011002.

DOI:10.1063/1.4812323URL [本文引用: 2]

SAAL J E, KIRKLIN S, AYKOL M, et al. Materials Design and Discovery with High-Throughput Density Functional Theory: The Open Quantum Materials Database (OQMD)
[J]. Jom, 2013,65(11):1501-1509.

DOI:10.1007/s11837-013-0755-4URL [本文引用: 2]

CURTAROLO S, SETYAWAN W, WANG S, et al. AFLO-WLIB.ORG: A distributed materials properties repository from high-throughput ab initio calculations
[J]. Computational Materials Science, 2012,58(none):227-235.

DOI:10.1016/j.commatsci.2012.02.002URL [本文引用: 2]

高志玉, 刘国权. 在线材料数据库进展与NIMS/MatWeb案例研究
[J]. 材料工程, 2013, (11):89-96.

[本文引用: 2]

VILLARS P, CENZUAL K, GLADYSHEVSKII R, et al. Pauling File: Toward a Holistic View
[M]. // Materials Informatics, 2019: 55-106.

[本文引用: 2]

YAMAZAKI M, XU Y, MURATA M, et al. proceedings of the BALTICA VII - Life Management and Maintenance for Power Plants: NIMS structural materials databases and cross search engine - MatNavi
[C]. Helsinki: Technical Research Center of Finland, 2007.

[本文引用: 2]

HELLENBRANDT M. The Inorganic Crystal Structure Database (ICSD)—Present and Future
[J]. Crystallo-graphy Reviews, 2004,10(1):17-22.

[本文引用: 2]

KIM M, SINGH S P, LEE J-W, et al. Identification of a narrow band red light-emitting phosphor using computa-tional screening of ICSD: Its synjournal and optical chara-cterization
[J]. Journal of Alloys and Compounds, 2019,774:338-346.

DOI:10.1016/j.jallcom.2018.09.370URL [本文引用: 2]

WHITE P S, RODGERS J R, LE P Y. Crystmet: A database of the structures and powder patterns of metals and intermetallics
[J]. Acta Crystallographica Section B: Structural Science, 2002,58(3 PART 1):343-348.

DOI:10.1107/S0108768102002902URL [本文引用: 2]

GRA?ULIS S, DA?KEVI A, MERKYS A, et al. Crystallo-graphy Open Database (COD): An open-access collection of crystal structures and platform for world-wide collaboration
[J]. Nucleic Acids Research, 2012,40(D1):D420-D7.

DOI:10.1093/nar/gkr900URL [本文引用: 2]

HACHMANN J, OLIVARES-AMAYA R, JINICH A, et al. Lead candidates for high-performance organic photovoltaics from high-throughput quantum chemistry - the Harvard Clean Energy Project
[J]. Energy & Environmental Science, 2014,7(2):698-704.

[本文引用: 2]

PUCHALA B, TARCEA G, MARQUIS E A, et al. The Materials Commons: A Collaboration Platform and Information Repository for the Global Materials Community
[J]. JOM, 2016,68(8):2035-2044.

DOI:10.1007/s11837-016-1998-7URL [本文引用: 2]

刘芳宁, 王越, 孙瑞侠. 材料数据库的现状与发展趋势
[J]. 科技创新导报, 2018,15(34):149-151.

[本文引用: 1]

COUDERT F-X. Materials Databases: The Need for Open, Interoperable Databases with Standardized Data and Rich Metadata
[J]. Advanced Theory and Simulations, 2019,2(11):1900131.

DOI:10.1002/adts.v2.11URL [本文引用: 1]

GLICK J. Ontologies and Databases - Knowledge Engineering for Materials Informatics
[J]. Informatics for Materials Science and Engineering, 2013: 147-187.

[本文引用: 1]

DRAXL C, SCHEFFLER M. NOMAD: The FAIR concept for big data-driven materials science
[J]. Mrs Bulletin, 2018,43(9):676-682.

DOI:10.1557/mrs.2018.208URL [本文引用: 1]

相关话题/材料 数据 计算 数据库 结构