摘要&关键词
摘要:现有化学物质名录中收录的化合物安全、环境和健康风险已知,可以直接进入实验室和进一步的工业实验,降低项目研究时间和经济成本。目前,名录中只含有CAS(登录)号等基本信息,无法满足功能化合物筛选的需求,我们根据中国、美国和欧盟的现有化学物质名录,进行数据挖掘、计算和二次加工,建立了商品化合物数据库(Existing Commercial Compounds Database,ECCD)。除了名录中的基本信息外,ECCD根据CAS号添加了表征化合物结构信息的mol文件,并在此基础上利用基团贡献法估算了化合物的物性信息,包括摩尔质量、熔点、沸点、密度、蒸气压、表面张力和黏度等,作为化合物筛选的基础信息。为了实现功能化合物的批量筛选,ECCD中还添加了分配系数、选择性、溶解能力和溶剂损失等描述相间行为的重要物理化学特征参数。此外,还可根据筛选目的的不同,以ECCD为基础,添加化合物的特定物性和功能数据,以满足特定功能化合物筛选的需求。为进行计算机辅助分子设计、材料表面设计和功能化合物结构设计等提供极大的便利。
关键词:化学物质名录;商品化合物;物性数据;化合物筛选
Abstract & Keywords
Abstract:?The compounds in the existing chemical substances inventory, with known safety, environmental, and health risks, can be easily accessed in laboratories and be further tested for industrial experiments, with less project research time and economic cost compared with new compounds. At present, the inventories only contain basic information of substances, such as CAS numbers, which cannot meet the needs of functional compound screening. We established the Existing Commercial Compounds Database (ECCD) by extracting and processing the compounds data contained in the existing chemical substances inventories in China, United States and European Union. In addition to the basic information, a mol file that characterizes the structure information of the compound is collected in the ECCD in accordance with the CAS registration numbers. On this basis, we adopted group contribution method to estimate the physical properties of the compound, including molar mass, melting point, boiling point, density, vapor pressure, surface tension, and viscosity, which serve as the basic information for compound screening. Furthermore, in order to realize the batch screening of functional compounds, specific physical and chemical characteristic parameters for the description of the behavior between two liquid phases, such as partition coefficient, selectivity, solubility, and solvent loss, have been added to the ECCD. It should be noted, for the different screening purposes, specific physical properties and functional data of compounds were also added to the ECCD to meet the needs of screening specific function compounds. Thus the database can greatly facilitate the computer-aided molecular design, material surface design, and functional compound structure design, etc.
Keywords:?chemical substances inventory;?commercial compounds;?physical property data;?compound screening
数据库(集)基本信息简介
数据库(集)名称 | 商品化合物数据库 |
数据作者 | 续冉、赵月红、韩清珍、温浩 |
数据通信作者 | 赵月红(yhzhao@ipe.ac.cn) |
数据时间范围 | 2017–2019年 |
数据量 | 74 KB |
数据格式 | *.xls |
数据服务系统网址 | http://www.sciencedb.cn/dataSet/handle/914(89个样例数据集) |
基金项目 | 国家科技基础条件平台项目(DKA2017-12-02-05);“十三五”院信息化专项(XXH1350303-103)。 |
数据库(集)组成 | 中国、美国、欧盟现有化学物质名录中的34177种化合物,包含标识信息(CAS登录号、中英文名称、所属名录、化学式、摩尔质量、SMILES码)、理化性质数据(熔点Tm 、正常沸点Tb 、蒸汽压P、密度ρ、表面张力σ、黏度η)和萃取性能(分配系数mij 、选择性βij 、溶解能力SPij 、溶剂损失SLi )。 |
Dataset Profile
Title | Existing commercial compounds database |
Data authors | Xu Ran, Zhao Yuehong, Han Qingzhen, Wen Hao |
Data corresponding author | Zhao Yuehong (yhzhao@ipe.ac.cn) |
Time range | 2017–2019 |
Data volume | 74 KB |
Data format | *.xls |
Data service system | <http://www.sciencedb.cn/dataSet/handle/914> (89 samples) |
Sources of funding | The National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); CAS informatization project during the Thirteenth Five-Year Plan – "Key Database Construction and Application Services for the Discipline of Chemistry" (XXH1350303-103). |
Database composition | 34,177 compounds in the existing chemical substances inventories in China, United States, and European Union, including identification information (CAS registration number, Chinese and English names, belonging inventory, chemical formula, molar mass, SMILES code), physical and chemical properties (melting point Tm, normal boiling point Tb, vapor pressure P, density ρ, surface tension σ, viscosity η) and extraction performance (partition coefficient mij, selectivity βij, dissolution capacity SPij, solvent loss SLi). |
引 言
目前许多国家和地区都编制了本国的化学物质管理法规,要求对生产、加工、销售、使用或从国外进口的化学物质进行注册/通报。我国自2003年开始建立并执行新化学物质登记制度[1-2],根据是否列入目录,将化学物质分为现有化学物质和新化学物质。现有化学物质的安全、环境和健康风险已知,通过有效的技术手段和监管措施可防范可能出现的危害,且可根据CAS登录号获得化合物的化学物质安全技术说明书(Material safety data sheet,MSDS),可为安全生产/储存/运输/使用/处置、泄露应急处理、劳动保护和救护措施等提供指导。
为了便于利用名录中的化合物,中国科学院过程工程研究所基于中国、美国和欧盟的现有化学物质名录,建立了商品化合物数据库(Existing Commercial Compounds Database,ECCD)。ECCD中除了包含名录中化合物的基本信息外,还根据CAS登录号添加了表征化合物结构信息的mol文件。由于缺乏实验数据,无法满足化合物筛选数据一致性和完备性的要求,我们利用化合物分子结构信息,采用基团贡献法和基团匹配工具CACTVS开发了化合物物性估算程序,进行物性估算,用于扩充化合物的物性信息,包括熔点、正常沸点、密度、黏度等,作为功能化合物筛选的基础数据集。对于有特定功能需求的化合物筛选,可以在基础数据集的基础上,增加专题功能数据。如,为了满足萃取剂筛选的需求,实现煤化工废水中多种污染物的萃取,我们在ECCD库中补充了针对废水中12种典型污染物的萃取性能数据,并进一步开发了基于多物性联合检索的高通量筛选方法。由于ECCD中化合物环境健康风险已知,有可能进一步发现“老”化合物的“新”功能,有利于提高功能化合物开发效率,降低经济和时间成本。
1 ? 数据采集和处理方法
1.1 ? 数据源
目前,世界主要国家和地区的化学物质名录有:中国现有化学物质名录(Inventory of existing chemical substances,IECSC)、美国有毒物质控制名录(The toxic substances control act,TSCA)、欧洲现有商业化学物质名录(European inventory of existing commercial chemical substances,EINECS)、菲律宾化学品和化学物质名录(Philippine inventory of chemicals and chemical substances,PICCS)、韩国现有化学物质清单(Korea existing chemical list,KECI)、加拿大国内物质清单(Domestic substances list,DSL)、日本现有和新化学物质(Existing and new chemical substances,ENCS)、澳大利亚化学物质名录(Australia inventory of chemical substances,AICS)等[3-4]。
收录化合物数量最多的6个名录中化合物的分布如图1所示,其中文恩图由Tbtools[5]绘制。可以看出欧洲现有商业化学品名录(EINECS)[6]、美国有毒物质控制名录(TSCA)[7]和中国现有化学物质名录(IECSC)[8-9]基本可以包含世界化学品名录中的大部分化合物。因此,本文以这三个名录为基础建立ECCD数据库。
图1 ? 世界化学品名录中化合物的数量分布图
3个名录中化学物质的数量如表1所示,总共有10万多种化学物质。名录中的化学物质一般包含CAS号、流水号、物质名称和化学分子式等基本信息。为了扩充数据库信息,以支持功能化合物筛选,我们以CAS号为依据从中国科学院上海有机化学研究所获取了化合物的mol文件。排除重复的化合物后,ECCD中共有34177种含分子结构信息的化合物。
表1 ? 3个名录中的化合物情况
名录 | 更新时间 | 物质个数 | 有CAS号 | 有mol文件 |
---|---|---|---|---|
EINECS | 2019 | ~100000 | 100203 | 31773 |
TSCA | 2018 | ~84000 | 67635 | 16876 |
IECSC | 2018 | ~45000 | 37126 | 10611 |
1.2 ? 物性数据的计算
为了扩展数据库的应用范围,ECCD添加了化合物的物性数据,包括摩尔质量M、熔点Tm 、正常沸点Tb 、蒸汽压P、密度ρ、表面张力σ和粘度η等。由于实验数据完备性不足,ECCD中的物性数据采用基团贡献法进行估算。现有物性计算方法中,基团贡献法具有适用范围广、计算简单、估算精度误差范围可接受等优点。表2总结了本数据库中采用的物性计算方法[10,11,12 ],包括C-G法、Joback法、GCVOL法和CSGC法。
表2 ? 物性数据的计算方法
物性数据 | 计算方法 |
---|---|
熔点Tm | C-G, Joback |
正常沸点Tb | C-G, Joback |
密度ρ | C-G, GCVOL |
蒸气压P | CSGC_PRV |
表面张力σ | CSGC_ST1 |
黏度η | CSGC_VK |
物性估算程序包括3个步骤:首先利用Open Babel 2.3.2软件将化合物结构mol文件转化成SMILES码;根据SMARTS码的编码规则,对不同基团贡献法中的基团进行表达。然后利用CACTVS化学工具库[13]进行SMILES码和SMARTS码的匹配,将分子结构拆解成基团。最后采用相应的基团贡献法估算化合物的性质。物性估算程序采用Tcl语言(Tool Command Language)[14]编写,可以实现不同物性估算任务的批处理作业,以及程序与外部数据的连接。
根据不同的化合物筛选需求,用户可以在现有ECCD数据库上的基础上添加专用的物性数据和功能数据,实现相应的功能化合物的筛选。例如,为了将ECCD数据库应用于煤化工废水中多种污染物脱除的萃取剂设计,我们在库中添加了萃取性能数据。考虑到废水中污染物浓度很低,萃取操作液液相平衡计算采用了无限稀活度系数。萃取剂对12种典型污染物(苯酚、甲基酚、二甲基酚、苯二酚、苯三酚、联苯、三联苯、萘、茚、吡啶、吲哚、喹啉)的萃取性能的计算方法如下:
(1)
(2)
(3)
(4)
其中,下角标i和j分别指萃取剂和污染物,下角标w指水。Mw 和Mi 分别是水和萃取剂的摩尔质量。mij 是污染物j在萃取相和水相中的分配系数,βij 是萃取剂i对污染物j和水的选择性,SPij 是萃取剂i对污染物j的溶解能力,SLi 是萃取剂i在水中的溶剂损失。、、、分别是j在w中、j在i中、w在i中和i在w中的无限稀释活度系数。
1.3 ? 数据使用的便利化
为了方便使用ECCD进行萃取剂筛选,以SQL Server 2008作为数据库管理系统,在Windows 7环境下,利用C#语言和Visual Studio 2010开发了ECCD的图形用户界面。ECCD的主界面和检索界面如图2和图3所示。
图2 ? 现有商品化合物数据库的登录界面
图3 ? 现有商品化合物数据库检索栏
2 ? 数据样本描述
ECCD采用CAS号作为唯一标识字段,化合物的基本信息、物性数据和功能数据均通过CAS号集成到数据库中。针对不同功能化合物筛选扩充的物性数据表也可以通过CAS登录号集成到ECCD中。表3–5分别是化合物的标识数据表、理化性质数据表和萃取性能数据表。其中各个表包含的信息为:(1)标识数据:CAS登录号、中文名称、英文名称、所属名录、分子式、SMILES码、摩尔质量;(2)理化性质数据:正常沸点、熔点、密度、蒸汽压、黏度、表面张力;(3)萃取性能数据:分配系数、选择性、溶解能力、溶剂损失。
表3 ? ECCD的化合物标识数据表
字段 | 数据类型 | 含义 | 说明 |
---|---|---|---|
IDnum | int | 主键 | 非空 |
CAS | nvarchar(255) | CAS登录号 | 唯一,非空 |
Name_CN | nvarchar(255) | 中文名称 | IUPAC命名 |
Name_EN | nvarchar(255) | 英文名称 | IUPAC命名 |
Inventory | nvarchar(255) | 所属名录 | ? |
MF | nvarchar(255) | 化学式 | ? |
smiles | nvarchar(255) | SMILES码 | ? |
M | float | 摩尔质量 | 单位:g?mol?1 |
表4 ? ECCD的理化性质数据表
字段 | 数据类型 | 含义 | 说明 |
CAS | nvarchar(255) | 外键,CAS登录号 | 唯一,非空 |
Tb | float | 正常沸点 | 单位:K |
Tm | float | 熔点 | 单位:K |
Den | float | 密度 | 单位:g?cm?3 在323.15 K和101.325kPa下 |
P | float | 蒸气压 | 单位:kPa,在323.15 K下 |
V | float | 黏度 | 单位:mPa?s,在323.15 K下 |
ST | float | 表面张力 | 单位:N?m?1,在323.15 K下 |
表5 ? ECCD的相间行为参数数据表
字段 | 数据类型 | 含义 | 说明 |
CAS | nvarchar(255) | 外键,CAS登录号 | 唯一,非空 |
SL | float | 溶剂损失 | 摩尔分数,在323.15 K下 |
mj | float | 分配系数 | 在323.15 K下 |
betaj | float | 选择性 | 在323.15 K下 |
SPj | float | 溶解能力 | 摩尔分数,在323.15 K下 |
注:其中j代表不同的污染物,1是苯酚,2是甲基酚,3是二甲基酚,4是苯二酚,5是苯三酚,11是联苯,22是三联苯,33是萘,44是茚,55是吡啶,66是吲哚,77是喹啉。
3 ? 数据质量控制和评估
分子结构和基团的表达以及基团匹配顺序将对拆解结果的正确性产生影响,本库通过对分子mol文件进行显氢处理,以避免SMILES码因隐氢引起的拆解错误。此外,修改了部分基团的SMARTS码和基团匹配顺序,以保证基团匹配结果的正确性。
无限稀释活度系数采用Dortmund UNIFAC模型[15-16]计算,它改进了活度系数组合项和剩余项,能更好地描述稀释区的真实行为。关联模型参数的数据集来自多特蒙德数据库(Dortmund Data Bank,DDB),关联中不仅使用了汽–液平衡数据,还使用了超额焓、超额等压热容、液–液平衡、共沸、固–液平衡数据、无限稀释活度系数数据,与原始UNIFAC模型相比,Dortmund UNIFAC模型估算精度更高,估算范围更广,预测无限稀释活度系数的误差可比原始UNIFAC模型降低40%–50%[17]。
4 ? 数据使用方法和建议
ECCD数据已经开发完成,目前仅限于内部使用,已具备在线数据查询和数据可视化能力。ECCD数据库包括两个账户,管理员账户和普通用户账户。管理员可以实现数据的检索、导入、导出和删除。普通用户可以进行数据的检索和导出。图4是检索后的结果界面。点击图中的“查看”,可以得到基本信息、理化性质和萃取性能。用户可以设定物性约束范围进行检索,批量下载筛选后的结果。本数据库还可以根据不同的体系添加相应的物性数据,更新数据集,扩展其应用范围。如需深入了解ECCD包含数据内容,样例数据集可以从Science Data Bank(http://www.sciencedb.cn/dataSet/handle/914)下载(包含89组样例数据)。需要指出的是ECCD系统尚未对外提供服务,正式线上服务工作正在准备中。如需使用本系统,可联系作者。
图4 ? ECCD数据库结果栏
[1]
国家环境保护总局. 新化学物质环境管理办法. 国家环境保护总局令第17号[EB/OL]. (2003–09–12) [2019–11–26]. http://www.gov.cn/gongbao/content/2004/content_62688.htm.
+?CSCD?·?Baidu Scholar
[2]
环境保护部. 新化学物质环境管理办法. 环境保护部令第7号[EB/OL]. (2010–02–04) [2019–11–26]. http://www.gov.cn/flfg/2010-02/04/content_1528001.htm.
+?CSCD?·?Baidu Scholar
[3]
ChemSafetyPRO. Global Chemical Inventories[EB/OL]. (2019–11–06) [2019–11–26]. https://www.chemsafetypro.com/Topics/Category/Global_Chemical_Inventories.html.
+?CSCD?·?Baidu Scholar
[4]
Chemical Inspection and Regulation Service Ltd. Global Chemical Inventories 2011[EB/OL]. (2011–11–01) [2019–11–26]. http://www.cirs-reach.com/Inventory/Global_Chemical_Inventories.html.
+?CSCD?·?Baidu Scholar
[5]
CHEN C, XIA R, CHEN H, et al. TBtools, a Toolkit for Biologists integrating various HTS-data handling tools with a user-friendly interface[EB/OL]. (2018–03–27) [2020–02–18]. https://www.biorxiv.org/content/10.1101/289660v1.
+?CSCD?·?Baidu Scholar
[6]
European Chemicals Agency. EC Inventory[EB/OL]. (2019–10–10) [2019–11–26]. https://www.echa.europa.eu/information-on-chemicals/ec-inventory.
+?CSCD?·?Baidu Scholar
[7]
United States Environmental Protection Agency. TSCA Chemical Substance Inventory[EB/OL]. (2018–10–05) [2019–11–26]. https://www.epa.gov/tsca-inventory.
+?CSCD?·?Baidu Scholar
[8]
环境保护部. 关于发布《中国现有化学物质名录》的公告. 环境保护部公告 2013年第1号[EB/OL]. (2013–01–14) [2019–11–26]. http://www.mee.gov.cn/gkml/hbb/bgg/201301/t20130131_245810.htm.
+?CSCD?·?Baidu Scholar
[9]
生态环境部. 关于增补《中国现有化学物质名录》的公告. 生态环境部公告 2018年第58号[EB/OL]. (2018–11–22) [2019–11–26]. http://www.mee.gov.cn/xxgk2018/xxgk/xxgk01/201811/t20181130_676779.html.
+?CSCD?·?Baidu Scholar
[10]
PRETEL E J, LOPEZ P A, BOTTINI S B, et al. Computer-aided molecular design of solvents for separation processes[J]. AIChE Journal, 1994, 40(8): 1349-1360.
+?CSCD?·?Baidu Scholar
[11]
POLING B E, PRAUSNITZ J M, O’CONNELL J P. The properties of gases and liquids[M]. 5th ed. New York: McGraw-Hill, 2001.
+?CSCD?·?Baidu Scholar
[12]
董新法, 方立国, 陈砺. 物性估算原理及计算机计算[M]. 北京: 化学工业出版社, 2006.
+?CSCD?·?Baidu Scholar
[13]
TORVS Research Team. The CACTVS system home page[EB/OL]. (1996–12–18) [2019–11–26]. http://www2.ccc.uni-erlangen.de/software/cactvs/.
+?CSCD?·?Baidu Scholar
[14]
OUSTERHOUT J K, JONES K. Tcl / Tk 入门经典[M]. 第2版. 张元章, 译. 北京: 清华大学出版社, 2010.
+?CSCD?·?Baidu Scholar
[15]
WEIDLICH U, GMEHLING J. A modified UNIFAC model. 1. Prediction of VLE, hE, and γ∞[J]. Industrial & Engineering Chemistry Research, 1987, 26(7): 1372-1381.
+?CSCD?·?Baidu Scholar
[16]
CONSTANTINESCU D, GMEHLING J. Further development of modified UNIFAC (Dortmund): Revision and extension 6[J]. Journal of Chemical and Engineering Data, 2016, 61(8): 2738-2748.
+?CSCD?·?Baidu Scholar
[17]
LOHMANN J, JOH R, GMEHLING J. From UNIFAC to modified UNIFAC (Dortmund)[J]. Industrial & Engineering Chemistry Research, 2001, 40(3): 957-964.
+?CSCD?·?Baidu Scholar
数据引用格式
续冉, 赵月红, 韩清珍, 温浩. 商品化合物数据库[DB/OL]. Science Data Bank, 2019. (2019-11-26). DOI: 10.11922/sciencedb.914.
稿件与作者信息
论文引用格式
续冉, 赵月红, 韩清珍, 温浩. 商品化合物数据库[J/OL]. 中国科学数据, 2020, 5(2). (2020-02-19). DOI: 10.11922/csdata.2019.0076.zh.
续冉Xu Ran
主要承担工作:商品化合物数据库的创建、物性数据的计算、更新和维护。
(1990—)女,山东临沂人,博士研究生,研究方向为计算化学与化工。
赵月红Zhao Yuehong
主要承担工作:商品化合物数据库的创建、更新和维护。
yhzhao@ipe.ac.cn
(1973—),男,内蒙古包头人,博士,副研究员,研究方向为计算化学与化工。
韩清珍Han Qingzhen
主要承担工作:商品化合物数据库的维护。
(1979—)女,山东临沂人,博士,副研究员,研究方向为计算化学与化工。
温浩Wen Hao
主要承担工作:商品化合物数据库的设计。
(1957—),男,北京人,博士,研究员,研究方向为计算化学与化工。