删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于化合物分子结构的量化计算结果数据库

本站小编 Free考研考试/2022-01-02


摘要&关键词
摘要:目前,大量已知结构的化合物缺乏基本物性数据和热动力学数据。为了进一步提高化学数据库中数据的完备性和拓展使用性,本数据库利用Gaussian03软件程序基于化合物结构数据库以及化合物基本信息资源对约20万个化合物的结构进行了数据分析和量化几何结构优化、光谱和频率以及热动力学计算模拟,并对量化计算结果文件按国际标准分别提取了化合物物种及相应的红外吸收光谱、偶极矩、绝对极化率、转动温度及转动常数、零点振动能、零点校正、分子内能、焓、自由能、分子动能、等容热容、熵等热动力学参数及其计算谱图数据等。经数据分析、挖掘和查重等二次加工处理后得到18000个化合物的量化计算结果数据(其中5321个化合物含有谱图数据)。为了提高数据的可使用性,本数据库对所有结果数据都进行了规范化和使用便利化加工处理。
关键词:化合物结构;量化计算;数据分析加工;热动力学数据;谱图数据

Abstract & Keywords
Abstract:?At present, a large number of compounds of known structure lack basic physical property data and thermodynamic data. In order to promote data integrity and usability in chemistry database, the study calculates the structure of about 200,000 compounds using Gaussian03 software programs based on compounds structure data and compounds profiles. Meanwhile, the study performs geometric structure optimization, thermodynamic data analysis, and spectrum analysis. Then, compound species, together with their thermodynamic parameters and spectrum data, are extracted from quantum calculation results according to international standards, including infrared absorption spectrum, dipole moment, absolute polarizability, turning temperature and constant, zero-point vibrational energy, zero-point correction, molecular internal energy, molecular kinetic energy, enthalpy, free energy, heat capacity at constant volume, and entropy. A second processing (i.e., data analysis, mining and duplicate checking) results in quantum chemical calculation data of 18000 compounds (including spectrum data of 5321 compounds). To improve data reusability, all the resulted data have been standardized and processed for easier reuse.
Keywords:?compounds structure;?quantum chemical calculation;?data analysis and processing;?thermodynamic data;?spectrum data

数据库(集)基本信息简介
数据库(集)名称量化计算结果数据库
数据作者韩清珍、赵月红、温浩
数据通信作者韩清珍(qzhan@ipe.ac.cn
数据时间范围2015–2017年
数据量766 KB
数据格式*.xls
数据服务系统网址http://www.sciencedb.cn/dataSet/metaData/630
基金项目国家科技基础条件平台项目,国家基础科学数据共享服务平台,DKA2017-12-02-05;“十三五”院信息化专项,化学学科领域重点数据库建设与应用服务,XXH1350303-103
数据库(集)组成数据集由13部分数据组成:一是偶极矩数据、二是绝对极化率数据、三是相对极化率数据、四是转动温度数据、五是转动常数数据、六是零点振动能数据、七是零点校正数据、八是热能数据、九是热焓数据、十是热自由能数据、十一是总分子动能数据、十二是等容热容数据和十三是熵数据。数据集包含1个数据文件:Quantumdata.zip。

Dataset Profile
TitleA database of quantum chemical calculation results
Data authorsHan Qingzhen, Zhao Yuehong, Wen Hao
Data corresponding authorHan Qingzhen (qzhan@ipe.ac.cn)
Time range2015 – 2017
Data volume766 KB
Data format*.xls
Data service system< http://www.sciencedb.cn/dataSet/metaData/630>
Sources of fundingThe National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05);
CAS informatization project during the Thirteenth Five-Year Plan – "Key Database Construction and Application Services for the Discipline of Chemistry" (XXH1350303-103).
Database compositionThe dataset consists of 13 subsets in total: Dipole moment (Debye), Exact polarizability, Approx. polarizability, Rotational temperatures (Kelvin), Rotational constants (GHZ), Zero-point vibrational energy (kJ/mol), Zero-point correction (Hartree/Particle), Thermal energy (kJ/mol), Thermal enthalpy (kJ/mol), Thermal free energy (kJ/mol), Total molecular kinetic energy (kJ/mol), CV (J/Mol-Kelvin), S (J/Mol-Kelvin). The database contains one compressed data file titled Quantumdata.xls, which stores thermodynamic chemical properties data resulted from quantum calculation.



引 言
近年来,随着新材料需求的扩大和研发能力的提高,具有各种特定性能、面向不同需求的各种结构的材料不断出现,但这些材料及其相关衍生物的许多热动力学性质却都不够详细,形成了大量已知结构的化合物缺乏物性基本数据及其相关热动力学数据的局面。如果将目前化学主题数据库中已知结构信息的化合物进行量化计算分子模拟,将量化计算获得的热动力学数据和谱图数据提取整理成数据库,将对化工模拟和材料分子设计行业的研发人员的查询使用提供极大方便。因此开发建设量化计算结果数据库对于化工模拟行业和材料设计的相关行业发展都具有重要意义。
量化计算结果数据库的数据收集是出于化工模拟和材料设计的需求而进行的,这些数据几乎没有文献数据或者很难用实验手段获得。因此采用可靠性较好的量化计算方法模拟出结果,一方面经过不断的计算模拟检验,另一方面在化工模拟、分子设计和水污染处理、空气净化等领域推广使用,逐渐形成一个类似查询工具包的数据包免费提供给用户使用。量化计算结果数据库收集了化学主题数据库中已知分子结构的化合物量化计算结果的热动力学数据和红外谱图数据等,并逐渐建成一个信息数据比较完备的数据管理与信息服务系统,实现网络服务和信息查询,并成为集成在化学主题数据库(ChemDB)内的一个附属子库,提供网络化管理和Web化数据共享平台。

1 ? 数据采集和处理方法
1.1 ? 数据预处理
首先利用Open Babel2.3.1软件将化学主题数据库中的化合物结构mol文件或者sdf文件转换为高斯计算软件的输入格式文件,进一步运用批处理命令将量化计算拟采用的杂化泛函模型、基组和电荷、自旋多重度等计算命令行和分子结构相关信息写入文本,生成分子结构优化、频率分析、电荷分布分析和相关热动力学参数分析以及等光谱计算和频率分析的高斯计算输入文件。

1.2 ? 热动力学数据计算方法
使用Gaussian03[1]和Gaussian09[2]软件包,采用密度泛函理论B3LYP/6-31G基组[3],设定体系温度T=298.15 K,压强P=101.3 kPa,对所有输入文件的化合物进行结构优化和频率计算分析,得到优化几何构型及其完整的化合物热动力学参数,运用批处理程序寻找正常收敛结束的输出结果文件,提取化合物的物种,得到优化几何构型及其完整化合物热动力学参数信息,利用C语言编辑的批处理程序提取化合物的偶极矩、绝对极化率、相对极化率、转动温度及其转动常数、零点振动能、零点校正、分子热能、焓、自由能、分子动能、等容热容、熵等热动力学参数信息(见表1),并将其进行物理量的标准单位转换和规范化处理[4],生成对应的表格,上传到量化计算结果数据库,并实现在线服务,具体流程见图1。
表1 ? 化合物热动力学参数及其单位
物理量符号及定义SI单位
偶极矩Dipole Moment(μ)Debye
绝对极化率Exact Polarizability
相对极化率Approx Polarizability
转动温度Rotational TemperaturesK
转动常数Rotational ConstantsGHZ
零点振动能Zero-point Vibrational EnergykJ?mol?1
零点校正Zero-point CorrectionHartree/Particle
分子热能Thermal EnergieskJ?mol?1
分子反应焓Thermal EnthalpieskJ?mol?1
分子反应自由能Thermal Free EnergieskJ?mol?1
分子总动能Total Molecular Kinetic Energy (298.15 K)kJ?mol?1
qQJ
wWJ
内能J
J
热力学温度TK
J?K?1
Gibbs自由能J
等压热容J?K?1
等容热容J ?mol?1?K?1
热容比
压缩因子
化学势J?mol?1
标准化学势J?mol?1
反应的标准Gibbs自由能J?mol?1
反应亲和势J?mol?1
反应的标准焓J?mol?1
反应的标准熵J?mol?1?K?1
平衡常数





图1 ? 量化计算结果数据库的计算和实现流程概图

1.3 ? 光谱数据计算方法
对所有编译后的化合物结构输入文件进行光谱计算分析,得到优化几何构型及其完整的红外谱图数据(见表2),运用批处理程序寻找正常收敛结束的结果输出文件,提取化合物物种,并利用GaussSum2.2程序提取这些化合物的振动频率及相应的红外吸收光谱数据,使用Gnuplot作图软件对其进行批处理作图,生成Spectum.zip文件,将结果文件上传到量化计算结果数据库实现在线服务和运行。
表2 ? 光谱数据及其单位
物理量符号及定义SI单位
波长λm
折射率
频率Hz
圆频率, 角频率ω = 2πνs?1, rad?s?1
波数m?1
m?1
Planck常数hJ?s
吸收比, 吸收因子
吸光度
跃迁波数m?1
跃迁频率Hz
电子项m?1
振动项m?1
转动项m?1
转动常数m?1
Hz
非对称参数
谐振动波数 ; m?1
分子电偶极矩C?m
分子磁偶极矩J?T?1
分子跃迁偶极矩C?m
振动力常数J?s?2
可变
可变
化学位移, δ


1.4 ? 数据使用的便利化
量化计算结果数据库为集成在ChemDB内的一个子库,提供了多样化的检索手段,来自世界各地的用户都可以通过Internet和Web浏览器方便快捷地获取所需数据。为了与之前的化学主题数据库统一标识,量化计算结果数据库采用ID、CAS RN、InChIKey以及化合物参考库登录号(SRN)作为化合物的标识信息,其存储及获取方式见表3。
表3 ? 各种标识的存储及获取方式
外文词存储及获取方式
ID化合物ID来源于化合物自身的CAS RN,并经过校验码检查确认其正确性。对于部分无法确定CAS RN的化合物,采用B加流水号的方式存储,如“B2000166”。
CAS RN化合物ID映射化学主题数据库的ID和CAS RN收集自各种资料,并经过校验码检查确认其正确性。
InChIKey化合物ID映射数据库使用国际纯粹与应用化学联合会的共享软件InChI Software Version 1.02由化合物结构生成化合物的InChIKey标识。
SRNSRN生成自化合物参考库的化合物结构登录系统,是一个十进制整数,由本体部分和个位的数字校验码1组成,用以代表化合物ID映射数据库中的一个化合物。

注1:SRN校验码使用ISO 7064∶1983标准的Mode 11 校验码计算方法。


2 ? 数据样本描述
目前已计算化合物结构约200000余个,收集相关热动力学数据25000余条。使用数据库前端应用程序已录入分子结构量化计算结果化学数据约18000条,且服务器量化计算仍在不断进行中,数据量仍在持续不断增长中。
基于量化计算结果数据库的内容,确定数据库(元)数据的基本元素需求,作为数据库结构设计的主要参考。其中,著录结构是经仔细分析确认的数据库数据著录所需元素及元素的先后排序,各项说明见表4。
需求元素设置表主要是把数据库所需要的字段经系统化、结构化之后,列成表格进行数据库结构分析和设计,以及撰写程序时参考使用,见表5。需求元素设置表各项说明如下:
元素中文名称:数据库所需字段的中文名称。
元素英文名称:数据库所需字段的英文名称。
数据类型:int存放纯数字型态的数据;text存放文字型态的数据;varchar存放其他类型数据。
大小:元素所需之空间,以byte为单位。一个英文字符或一个阿拉伯数字需用一个byte表示,而一个汉字字符则需两个byte表示。

3 ? 数据质量控制和评估
量化计算结果数据库采集的基本原则和策略是针对所收集数据的可靠性,对化合物结构的量化计算均采用已经成熟且经过实验结果验证可靠的理论方法和计算模型。数据收集中,对有明显错误或不符合物理化学基本规律的计算数据亦予以剔除。整体批量的数据输入、数据更新和处理的频度约为半年一次,手工输入则按月进行。
量化计算结果数据库对数据要求的制约基本内容包括:
1. 时间范围约定:在100小时内收敛结束的化合物结构量化计算结果。2. 学科范围约定:主要来自化学主题数据库化合物结构。3. 数据量:目前已积累大约18 000条数据,且服务器正在持续计算中,数据来源丰富。4. 数据精度约定:通常为小数点后5位有效数字。5. 语言约定:英语、中文。6. 数据类型约定:数据库数据的基本类型为文本、数字、图片、自定义的二进制格式等。
目前,数据库的输入输出的数据类型为文本、数字和图片类型以及自定义二进制格式,类型与数值都在数据库系统的正常允许范围之内。量化计算优化好的结果数据筛选提取出来后先使用EXCEL进行数据整理,为了保证数据质量,统计整理后的数据要求能够排除输入错误、类型错误,并能够进行部分数据转换功能。
表4 ? 数据库著录结构
著录项范例说明
化合物结构OseChemX C.20110210.111413.257D
8 8 0 0 0 0 0 0 0 0999 V2000
0.0000 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-1.2124 0.7000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-2.4249 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-3.6373 0.7000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-3.6373 2.1000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-2.4249 2.8000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-1.2124 2.1000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.2124 0.7000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
1 2 1 0
2 3 1 0
3 4 2 0
4 5 1 0
5 6 2 0
6 7 1 0
2 7 2 0
1 8 2 0
M END
以mol文件格式为例
化合物英文名称benzaldehyde非必须
化合物中文名称苯甲醛必须
化合物分子式C7H6O非必须
CAS RN100-52-7非必须
内部编号E-PN-001必须

表5 ? 需求元素表
元素中文名称元素英文名称数据类型长度
化合物结构Str_compoundImage
化合物InChI_KeyInChI_Keyvarchar27
化合物InChI码InChItext
分子式Formulavarchar100
中文名称Name_CNvarchar100
英文名称Name_ENvarchar150
中文别名OthName_CNtext
英文别名OthName_ENtext
化合物CAS登录号CASRNint10
内部idIDvarchar25
分子量Mol_weightfloat
吉布斯自由能Gfloat
偶极矩Dipolefloat
绝对极化率Exact Polarizabilityfloat
相对极化率Approx Polarizabilityfloat
转动温度Rotational Temperaturesfloat
转动常数Rotational Constantsfloat
零点振动能Zero-point Vibrational Energyfloat
零点校正Zero-point Correctionfloat
分子热能Thermal Energiesfloat
分子反应焓Thermal Enthalpiesfloat
分子反应自由能Thermal Free Energiesfloat
分子总动能Total Molecular Kinetic Energy (298.15 K)float
热力学温度Tfloat
Sfloat
等容热容Cvfloat


4 ? 数据使用方法和建议
量化计算结果数据库资源的数据描述共计13个子类,分别为偶极矩(Dipole Moment)、精确极化率(Exact Polarizability)、相对极化率(Approx Polarizability)、转动温度(Rotational Temperatures)、转动常数(Rotational Constants)、零点振动能(Zero Point Vibrational Energy)、零点校正(Zero Point Correction)、热能(Thermal Energies)、热焓(Thermal Enthalpies)、自由能(Thermal Free Energies)、总分子动能(Total Molecular Kinetic Energy)、等容热容(CV )和熵(Entropy),另外还提供部分结构的红外谱图(Infrared Spectrum)。用户可以利用化合物的CAS RN、结构、SRN或者InChIKey码查询其相应的上述热动力学计算结果数据(如图2所示),而不需要自己进行繁琐的分子结构模型构建、计算分析和结果提取等,这对新材料的评估分析、结构设计以及化学化工应用等都是十分便利的。




图2 ? 氮化硼的量化计算热化学性质数据的检索结果界面
量化计算结果数据可通过化学主题数据库页面(http://www.chemdb.csdb.cn)访问。


[1]
FRISCH M J, et al. Gaussian 03, Revision B.03[M]. Pittsburgh, PA: Gaussian Inc, 2003.

+?CSCD?·?Baidu Scholar

[2]
FRISCH M J, et al. Gaussian 09, Revision A.02[M]. Pittsburgh, PA: Gaussian Inc, 2009.

+?CSCD?·?Baidu Scholar

[3]
BECKE A D. Density-functional thermochemistry. III. The role of exact exchange[J]. Journal of Chemical Physics, 1993, 98(7): 5648-5652.

+?CSCD?·?Baidu Scholar

[4]
姜璐璐. 基于ChDR本体的化学数据资源集成的研究[D]. 北京: 中国科学院大学, 2015.

+?CSCD?·?Baidu Scholar


数据引用格式
韩清珍, 赵月红, 温浩. 量化计算结果数据库[DB/OL]. Science Data Bank, 2018. (2018-07-20). DOI: 10.11922/sciencedb.630.

稿件与作者信息

论文引用格式
韩清珍, 赵月红, 温浩. 基于化合物分子结构的量化计算结果数据库[J/OL]. 中国科学数据, 2018, 3(3). (2018-09-28). DOI: 10.11922/csdata.2018.0037.zh.
韩清珍Han Qing-zhen

主要承担工作:量化计算结果数据库的创建、量化数据的计算分析、更新和维护。
qzhan@ipe.ac.cn
(1979—)女,山东临沂人,博士,副研究员,研究方向为计算化学与化工。

赵月红Zhao Yuehong

主要承担工作:量化计算结果数据库的创建和运营维护。
(1973—),男,内蒙古包头人,博士,副研究员,研究方向为计算化学与化工。

温浩Wen Hao

主要承担工作:量化计算结果数据库的开发。
(1957—),男,北京人,博士,研究员,研究方向为计算化学与化工。


相关话题/数据 计算 数据库 结构 化学

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 2007–2009年黄海底层水CTD观测及沉积环境因子数据集
    摘要&关键词摘要:2007–2009年通过搭载黄海冷水团航次及中国近海开放共享航次共4个航次,在黄海利用CTD获得了154个站位的经纬度、水深、底层水温度和盐度数据;通过154个站位的沉积物样品的采集和分析,获得了调查站位沉积物的粒度、含水量、有机质含量、叶绿素a及脱镁叶绿素a含量以及各参数分层分布 ...
    本站小编 Free考研考试 2022-01-02
  • 基于土地利用的长江经济带1970s末至2015年人类活动强度数据集
    摘要&关键词摘要:人类活动强度数据集可以用于评估人类活动对生物多样性的影响等。本数据集以中国国家尺度土地利用数据库(China’sLand-Use/coverDatasets,CLUDs)为数据源,采用生态系统综合人类扰动指数赋值方案,研制了长江经济带1970年代末、1980年代末、1995年、20 ...
    本站小编 Free考研考试 2022-01-02
  • 明清时期丝绸之路沿线城市建成区范围GIS数据集
    摘要&关键词摘要:城市建设是人类利用土地的主要形式之一。城市建成区的变化记录着城市系统演变的历史,反映了城市位置、规模和形态的变迁。丝绸之路沿线城市建成区的历史数据为研究这些城市的演化过程提供了数据支撑,为更长时段及其他城市要素的复原工作提供了数据基础。本文以城墙围合范围指代城市建成区范围,以明清时 ...
    本站小编 Free考研考试 2022-01-02
  • 清至民国石羊河流域聚落数据集
    摘要&关键词摘要:石羊河流域地处河西干旱区,是丝绸之路的必经之地,流域内聚落的变化对干旱地区社会与生态环境变迁有重要的指示作用。因此石羊河流域聚落数据集,不仅是研究干旱区生态环境变迁的重要数据,也是丝绸之路研究的基础数据。本数据集合方志、地理调查表、地图资料提取了清至民国流域内的聚落信息。通过详细地 ...
    本站小编 Free考研考试 2022-01-02
  • 唐代丝绸之路东中段交通线路数据集(618–907年)
    摘要&关键词摘要:丝绸之路交通线路是研究丝绸之路的重要基础,唐代丝绸之路交通路线奠定了历史丝绸之路交通的基本框架。本文以唐代(618–907年)丝绸之路东中段交通为研究对象,综合利用历史文献、考古成果,以及历史地理学和地理信息系统方法建立交通线路数据集,尽可能客观地反映唐代丝绸之路东中段交通面貌。本 ...
    本站小编 Free考研考试 2022-01-02
  • 晚清民国新疆地区湖泊、湿地数据集
    摘要&关键词摘要:干旱区湖泊和湿地是区域环境变化的敏感因子及指示器。历史时期新疆地区湖泊与湿地的重建数据不仅是全球变化所需要的基础水文数据,而且是历史时期丝绸之路研究必备的环境数据。通过对宣统元年(1909年)的《新疆全省舆图》,民国二十四年(1935年)新疆地区一套大比例尺军用地形图数字化处理,结 ...
    本站小编 Free考研考试 2022-01-02
  • 两汉丝绸之路交通数据集
    摘要&关键词摘要:本文以谷歌地球(GoogleEarth)提供的高清晰度卫星图片为基础,通过对历史文献、考古成果、今人研究等资料的梳理尽可能地实现对两汉时期沙漠绿洲丝绸之路主要交通点的精确地理定位,进而根据地形地貌特征复原这一时期丝绸之路的主要线路走向,最终形成包括交通点、交通线在内的两汉丝绸之路交 ...
    本站小编 Free考研考试 2022-01-02
  • 1980–2014年中国干旱半干旱区生态系统有机碳储量及碳动态数据集
    摘要&关键词摘要:本研究收集了通过干旱区生态系统模型AEM(AridEcosystemModel)模拟得到的1980–2014年中国干旱半干旱区生态系统有机碳储量、碳动态数据,包括总碳储量、植被碳储量、土壤有机碳储量和凋落物碳储量。空间分辨率50km×50km,研究区(27.6°–53.6°N,73 ...
    本站小编 Free考研考试 2022-01-02
  • 蒙元时期丝绸之路旅行家行程GIS数据集
    摘要&关键词摘要:蒙元时期丝绸之路上的旅行家为数甚多,其中有约15位的行程可供复原,复原工作对研究该时期丝绸之路的走向和不同时期路线的选择意义较大。本文收集整理了文献记载的旅行家途经地点,再依据现代研究成果、古今地图、GoogleEarth卫星影像等绘制往来路线。15位旅行家、使节从最早的耶律楚材( ...
    本站小编 Free考研考试 2022-01-02
  • 气候变化影响下1980–2014年中国西部干旱区生态碳库及碳源汇动态空间数据集
    摘要&关键词摘要:干旱区是对气候变化最敏感的陆地生态系统之一,生态系统碳库动态是区域碳源、碳汇特征最直观的表现,干旱区生态系统有机碳库的估算及其动态研究在区域乃至全球尺度的碳循环研究中都具有重要的科学意义。研究区大致空间范围为30°N–50°N、70°E–110°E,包括中国新疆、甘肃西北部以及内蒙 ...
    本站小编 Free考研考试 2022-01-02