删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

化学药物数据集

本站小编 Free考研考试/2022-01-02


摘要&关键词
摘要:通过收集书籍手册中的化学药物研究成果信息,对收集的药物数据信息进行分类汇总和规范化处理,采用化合物唯一标识法集成药物化合物结构数据,利用数据采集规范和数据抽查回溯手段控制数据质量,通过算法程序保证数据集中关键数据项的正确率,最终形成化学药物数据集。本数据集包括了药物基础数据和药物化合物数据,共计1060条。化学药物数据集可以为新药研发、药物改良、科研教育等提供数据支持。
关键词:药物数据;化学药物;药物化合物;新药研发

Abstract & Keywords
Abstract:?This study collected chemical drug data from book manuals. The collected data were then classified, summarized and standardized. Structured data of the drug compounds were integrated by using the method of compound unique identification. For quality control, we developed collection specifications and methods for data sampling and backtracking, which, coupled with algorithm programs, ensured the accuracy of the key data items. The dataset contains 1060 records that fall into two subsets: one for basic drug data and the other for drug compound data. This dataset provides data support for drug development, drug improvement, as well as relevant research and education, etc.
Keywords:?drug data;?chemical drugs;?drug compounds;?drug development

数据库(集)基本信息简介
数据库(集)名称化学药物数据集
数据作者徐挺军、赵英莉、李英勇
数据通信作者徐挺军(xutingjun@sioc.ac.cn)
数据时间范围1985–2001年
地理区域世界各国
数据量5.44 MB
数据格式*.MDB
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/657
基金项目中国科学院信息化专项科学大数据工程(XXH135)、上海市化学化工数据共享服务平台(18DZ2294000)
数据库(集)组成数据集由2部分数据组成:1. 药物基础数据(包括药物类型、名称、性状、制法、用途、生产企业等);2. 药物化合物数据(包括化合物登录号、CA登记号、化合物名称、分子式、分子量、化学结构文件等)。

Dataset Profile
TitleA dataset of chemical drugs
Data corresponding authorXu Tingjun(xutingjun@sioc.ac.cn)
Data authorsXu Tingjun, Zhao Yingli, Li Yingyong
Time range1985–2001
Geographical scopeWorldwide
Data volume5.44 MB
Data format*.MDB
Data service systemhttp://www.sciencedb.cn/dataSet/handle/657
Sources of fundingCAS informatization project during the Thirteenth Five-Year Plan (XXH135);
Shanghai Chemistry & Chemical Industry Data Platform(18DZ2294000)
Dataset compositionThis dataset consists of two parts of data, one for basic drugs (including their type, name, properties, preparation, application, manufacturer, etc.) and the other for drug compounds (including their registration number, CA registration number, name, molecular formula, molecular weight, chemical structure, etc.).



引 言
化学药物是当今世界占比最高的药物来源,其数量众多、研发活跃、发展迅速。但是,我国化学制药行业严重缺乏竞争能力,相比于其他发达国家的医药产业,具有技术创新能力低、研发投入少、仿制药物占比高等弱点[1]。药物研发成本高、周期长、技术保护等因素制约着我国合成药物的创新和发展,如何能准确地找出突破点和应对方法是整个医药产业链值得深思的问题。
药物化学家通过研究现有药物化合物明确的靶标结构和物性活性数据,基于化学原理,根据药物的化学结构特征、合成方法等,构建新的药物化学有效结构
类型或者新的药物合成路径,进行药物模拟创新,成为突破现阶段我国药物创新困境和瓶颈的一个方法[2]。对于原创新药研发投入高、失败率高等问题,研究现有药物的构效关系,发现现有药物新的用途或者新的定位,能够在一定程度上提升新药研发的成功率,降低药物研发成本,加快临床急需用药的上市[3]
通过收集国内外已经上市的药物以及有发展潜力、尚在研发中的新药等现有药物的基础数据和药物化合物的数据,对数据进行加工和规范化处理,形成一定规模和范围内的化学药物数据集,涵盖药物的物性活性、制法合成路径、化合物结构等信息数据,从而从数据的角度促进药物研发等科研活动的进行。
国内《化学专业数据库》中的药品数据库,收集了约9000多种药品,数据包括药品的名称、结构、理化性质、适应症、标准等,由于是多种数据源的整合,存在数据规范不统一、药物分类不清晰等问题,且没有药物制法、生产企业等数据[4]。世界著名的药品数据库DrugBank,最新版本涵盖了约10000多种药物,其中化学小分子药物2000余种,主要为药物药理学数据和药物靶点数据,数据描述语言为英语[5]。本文希望通过化学药物数据集的建设,以小范围的典型数据源为例,研究化学药物数据的采集、处理方法和步骤,为建立更加权威、规范、全面的中文化学药品数据库打下基础。

1 ? 数据采集和处理方法
1.1 ? 原始数据来源
化学药物数据集的原始数据采集自《精细化工产品手册·药物》[6],原始数据采集后对数据进行规范化加工处理,然后对药物化合物进行唯一化标识[7],获得药物化合物的结构信息数据,最终形成化学药物数据集。

1.2 ? 数据采集
原始数据为手册书籍,其编写按用途、药理和化学结构相结合的方式进行分类。对于有共同药理作用的药物,如拟肾上腺素和抗肾上腺素药物、拟胆碱和抗胆碱药物、抗组胺药物等,分列一章。每章开头有对该章药物的简短说明。每章中再分小类,在小类中将结构相似的药物归于一起。同一种药物有多种用途时,该药物归在主要用途一章中。在药物信息详细描述段中,均分栏介绍其中文通用名(或常用名)及英文通用名(或常用名)、在美国《化学文摘》上的登录号、其他名称、结构式、分子式、相对分子质量、性状、制法、规格、用途、生产厂家、参考资料等,如图1所示。




图1 ? 原始数据示例
根据以上原始数据类型和特点,设计数据集录入加工数据表,采用人工输入的方式,将原始数据书籍中各个信息分别录入对应的数据项中。数据表以化学药物作为实体,药物的分类信息、药物描述数据、化合物数据、性质数据、生产方法等作为其属性。由于原始书籍涉及的数据类型众多,采用一定的输入规则对数据进行采集,以便后续的数据规范化处理,数据部分采集规则如表1所示。
表1 ? 数据采集规则
序号规则说明
1同一类数据中有多个数据的使用“;”分隔,如同一个药物有多个名称,多个参考文献等
2内容描述中每个自然分段的结尾部分加“$$”
3如果内容中有表格,在表的起始和结束后各加一个“$T”,表内容的每一项用“/”或“@”(当表的内容中有“/”时)分隔,每一行用“$$”分隔
4化学结构式中的结构图不需输入
5所有汉字和符号,包括希腊字母按原样输入
6分子式中的数字按普通数字方式输入,其余上下标内容使用上标符组“^<”“^>”,和下标符组“^{”“^}”表示,需要用上下标表示的内容置于上标或下标符号组的两个符号间。例如,“cm-1”应该表示成“cm^<-1^>”
7熔点(mp)、沸点(bp)、酸碱度(PH)的数据包含在性状内容中,需要从中选取,输入内容包括这些数据的标识。


1.3 ? 数据规范化处理
原始数据经采集后,形成化学药物加工数据表。其中药物大类为药物的主要用途分类,药物小类为化学结构或者药理作用部位分类,如抗生素大类中,分β-内酰胺类抗生素、大环内酰胺类抗生素、氨基糖苷类抗生素等小类。根据化学药物数据集的设计,将加工数据表中的数据进行规范化处理:去除CASRN号中的“-”,将其转换为数字以便后续的数据处理;设计药物基础数据表、药物化合物数据表,分别如表2、表3所示,并将加工数据表中不同类型的数据分别归类至相应的数据表中,并以药物编号YWID作为主键链接;由于药物化合物的化学结构大多较为复杂,如采用人工输入化学结构数据,则需要非常专业的人员耗费相当多的工作时间,且较易出现差错。化学药物数据集利用原始数据中较为明确的CASRN号、化合物名称、分子式等数据,采用化合物唯一化标识方法,根据化合物登录号SRN直接从化合物参考数据库中获取化合物结构信息[8],形成药物基础数据、药物化合物数据,得到最终的化学药物数据集。
表2 ? 药物基础数据表
序号属性名称数据类型属性说明
1YWID数值药物编号
2YWDL字符药物大类
3YWXL字符药物小类
4YWZW字符药物通用名称
5YWYW字符药物通用名称英文
6XZ字符性状
7RD数值熔点
8FD数值沸点
9PH数值酸碱度
10ZF字符制法
11YT字符用途
12SCCJ字符生产企业
13CKWX字符参考文献

表3 ? 药物化合物数据表
序号属性名称数据类型属性说明
1ID数值序号
2YWID数值药物编号
3SRN数值化合物登录号
4CASRN字符CA登记号
5HHWM字符化合物名称
6QTMC字符化合物别名
7MF字符分子式
8MW数值分子量
9Mol字符化学结构文件



2 ? 数据样本描述
化学药物数据集涵盖了药物的基础信息数据和药物化合物数据,分别存储于药物基础数据表和药物化合物数据表。以市面常见的抗高血压药物缬沙坦(Valsartan)为例,表4展示了其药物的基本信息数据,表5展示了其化合物数据,其中化学结构数据为MDL Molfile文件内容,在表中以化学结构图的形式来描述。
表4 ? 化学药物数据集药物基础数据示例
序号数据类型数据示例
1药物编号374
2药物大类心脑血管药物
3药物小类抗高血压药
4药物通用名称缬沙坦
5药物通用名称英文Valsartan
6性状从二异丙醚结晶,熔点116–117℃。
7熔点116–117℃
8沸点-
9酸碱度-
10制法2’-氰基联苯-4-醛(I)和L-缬氨酸甲酯进行还原胺化,得到的化合物(II)再用戊酰氯进行酰化,层析后得到化合物(III)。然后和Bu3SnN3进行反应,引入四唑,再水解即得产物。
11用途抗高血压药物。非肽血管紧张素II AT1-受体拮抗剂。用于治疗高血压。
12生产厂家瑞士Ciba开发,1996年在德国上市。
13参考文献[1] Merck Index 12th:10051;[2] Buehlmayer P,Ostermayer F and Sehmidlln T.Aeyl compounds.EP 443983,1991-08-28;$$[3]Buehlmayer P,Ostermayer F and Schmidlin T.Acyl compounds.US 5399578,1995-03-21.

表5 ? 化学药物数据集药物化合物数据示例
序号数据类型数据示例
1序号382
2药物编号374
3化合物登录号6137969
4CA登记号137862-53-4
5化合物名称N-(1-氧戊基)-N-[[2’(-(1H-四唑-5-基)[1,1’(-联苯]-4-基]甲基]-L-缬氨酸;N-(1-Oxopentyl)-N-[[2’-(1H-tetrazol-5-y1)[1,1’-biphenyl]-4-y1]methyl]-L-valine
6化合物别名CGP-48933:Diovan
7分子式C24H29N5O3
8分子量435.53
9化学结构(mol 文件)


3 ? 数据质量控制和评估
化学药物数据集为保证数据质量,在采集数据时制定了数据采集规范(见本文1.2)。同时采用抽检的方式,随机抽选数据记录进行人工校对。为了解决数据的可追溯性问题,化学药物数据集在原始数据采集的同时录入数据来源号,来源号由5位数字编号,前2位数字为来源书籍的章号,第3位数字为节号,后2位数字为数据条目编号。由于工具书籍的编排具有严格的顺序性,因此可针对数据集的连续性进行校验。在后续的数据处理中发现的数据遗漏或者数据质量问题,根据数据来源号对照原始数据得到了修正。
对数据集中的关键数据项,进行了程序校验。根据美国化学文摘社(CAS)发布的CA登记号有效性验证规范[9],一个CASRN最多有10位数字,由连字符“-”分为三个部分,从左边起的第一部分的数字为2到7位数,第二部分数字为2位数,最后一部分由1位数组成。最后的一位数是校验码,数据集采用程序软件使用一个标准计算方法来计算CAS登记号是否为一个有效号码。
数据集中的化合物分子式和分子量数据,通过了分子式处理技术验证其精确性。如图2所示,程序读入分子式字符串FormulaString后解析其字符特征,比如分子式中的“()”“.”等,以此判断该分子式是否为规范的表达,并且将分析所得的结果存入分子式特征变量FormulaFeature中;根据该分子式的类型,截取其中的分子式单元字符串,分别存入分子式单元字符串变量FormulaUnit中,普通的化合物分子式单元字符串为一个,晶体和有机盐分子式单元字符串为两个或多个,聚合物分子式单元为括号中单体分子式的字符串;依次遍历分子式单元字符串FormulaUnit,分别解析出元素符号和元素数量存入元素变量Atom和元素数量变量Amount中,并且根据元素的原子量和元素数量计算该分子式基本单元的分子量,并且累加存入化合物分子量变量MolecularWeight;最后输出化合物分子式特征数据FormulaFeature和化合物分子量数据MolecularWeight。根据分子式数据处理程序所得的结果来验证数据集中的分子式是否符合规范,验证分子量数据是否正确。




图2 ? 分子式数据处理程序算法

4 ? 数据使用方法和建议
化学药物数据集使用MDB格式存储,使用者可以安装Microsoft Office Access?软件,打开数据集并且对数据集进行查看、检索、数据挖掘等操作[10]。化学药物数据集中的数据描述具有一定的专业性,为了保证数据格式的统一性,数据中采用某些符号和缩写来代替相应的专业名词,符号和缩写说明如表6所示。
表6 ? 化学药物数据集符号和缩写说明表
序号缩写符号说明
1[α]20 D旋光度,下标为光源,上标为温度
2n20 D折射率,下标为光源,下标为温度
3d23 4相对密度,指一定体积的该物质在23℃下的质量与等体积纯水在4℃下的质量之比
4E1% 1cm消光度,下标为槽的厚度,上标为样品的浓度
5ε分子消光系数
6mp熔点
7bp沸点
8pH酸碱度
9pKa电解质电离常数倒数的对数
10Ac乙酰基
11Bz苯甲酰基
12Bzl苄基
13Bu丁基
14Et乙基
15Me甲基
16Ph苯基
17Pr丙基
18Ts对甲苯黄酰基
197-ACA7-氨基头孢烷酸
207-ACT7-氨基头孢三嗪
216-APA6-氨基青霉烷酸
22DCC, DCCD二环己基二亚胺
23DMAN,N-二甲基乙酰胺
24DMFN,N-二甲基甲酰胺
25DMSO二甲基亚砜
26THF四氢呋喃
27IR红外光谱
28UV紫外光谱
29USP美国药典
30DE德国专利
31EP欧洲专利
32GB英国专利
33JP日本专利
34US美国专利
35WO世界专利

相对于工具书或者书籍只能根据目录和中英文索引来游览和检索,化学药物数据集的使用更为便捷和灵活。除了可以根据药物名称、性状、用途、制法等信息对药物进行检索和归类外,还可以利用数据集中药物化合物的化学结构信息进行量化计算。化学药物数据集包含的药物都有较为明确的化学结构,对于研究药物靶点信息、药物作用基团的构效关系等具有较好的数据支持作用,从而从数据角度为创新药物研发提供帮助。数据集中的信息描述言简意赅,收集的药物大都是已经市场化或广为人知的经典产品,适用于科研教学和大众科普教育等领域。化学药物数据集所收集药物的数据范围和数据量有限,但其建设方法和步骤具有一定的广谱性,后续可以本文所述加工处理方法为例,扩展到同领域其他数据源的加工处理,如《中国药典》《新编药物学》,补充增加化学药物数据集最新的数据源,进一步扩大数据覆盖范围。


[1]
李广乾. 促进我国化学制药行业技术创新的政策研究[J]. 现代产业经济, 2013 (z1): 48-56.

+?CSCD?·?Baidu Scholar

[2]
孙大柠. 谈当今我国合成药物的创新研制与开发——访中国医学科学院药物研究所郭宗儒研究员[J]. 药学进展, 2010, 34(1): 1-6.

+?CSCD?·?Baidu Scholar

[3]
王可鉴, 石乐明, 贺林, 等. 中国药物研发的新机遇:基于医药大数据的系统性药物重定位[J]. 科学通报, 2014, 59(18): 1790-1796.

+?CSCD?·?Baidu Scholar

[4]
药品数据库[EB/OL]. http://www.organchem.csdb.cn/scdb/main/cdntd_introduce.asp.

+?CSCD?·?Baidu Scholar

[5]
DrugBank version 5.1.1[EB/OL]. https://www.drugbank.ca/.

+?CSCD?·?Baidu Scholar

[6]
周学良. 精细化工产品手册.药物[M]. 北京: 化学工业出版社精细化工出版中心, 2003.

+?CSCD?·?Baidu Scholar

[7]
陈维明, 朱翠娣, 赵英莉, 等. 论数据唯一标识与化学数据的集成[C]. 第九届科学数据库与信息技术学术研讨会, 广西桂林, 2008.

+?CSCD?·?Baidu Scholar

[8]
赵英莉, 徐衍波, 李英勇, 等. 化合物参考数据库的设计[C]. 第十届科学数据库与信息技术学术研讨会, 贵州贵阳, 2010.

+?CSCD?·?Baidu Scholar

[9]
American Chemical Society. Check Digit Verification of CAS Registry Numbers[EB/OL]. [2018-10-08]. http://www.cas.org/content/chemical-substances/checkdig.

+?CSCD?·?Baidu Scholar

[10]
纪澍琴, 李连德, 常耀辉. Access数据库应用基础教程[M]. 北京: 北京邮电大学出版社, 2013.

+?CSCD?·?Baidu Scholar


数据引用格式
徐挺军, 赵英莉, 李英勇. 化学药物数据集[DB/OL]. Science Data Bank, 2018. (2018-10-08). DOI: 10.11922/sciencedb.657.

稿件与作者信息

论文引用格式
徐挺军, 赵英莉, 李英勇. 化学药物数据集[J/OL]. 中国科学数据, 2019, 4(1). (2018-11-22). DOI: 10.11922/csdata.2018.0061.zh.
徐挺军Xu TingJun

主要承担工作:数据库设计和数据库建库。
xutingjun@sioc.ac.cn
(1984—),男,浙江海宁人,硕士,工程师,研究方向为化学数据库。
赵英莉Zhao Yingli

主要承担工作:数据采集、基础数据加工和数据管理。
(1970—),女,辽宁沈阳人,硕士,副研究馆员,研究方向为化学信息学。
李英勇Li Yingyong

主要承担工作:化合物数据登录。
(1978—),男,河南南阳人,硕士,高级工程师,研究方向为化学信息学。


相关话题/药物 数据 化学 结构 数据库

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 高亚洲地区被动微波遥感雪水当量数据集
    摘要&关键词摘要:高亚洲是以青藏高原为主的亚洲高海拔地区,是中低纬度积雪的重要分布区,其积雪的动态变化对该区域水和能量循环、气候及环境变化具有重要的影响。全球广泛使用的积雪雪水当量(SWE)产品(如ESAGlobSnow)在高亚洲地区出现数据空缺情况,部分全球算法(如NASASWE产品)则在高亚洲地 ...
    本站小编 Free考研考试 2022-01-02
  • 2014年川中丘陵区自然沟渠干湿季水环境基本状况数据集
    摘要&关键词摘要:自然沟渠是连接农业排水、村镇居民生活废水与河流湖泊的重要通道,兼顾防洪和服务农业生产双重功能,同时具有一定的湿地功能。本数据集生产于2014年6月(丰水季)和11月(枯水季),对分布在川中丘陵区的盐亭、西充、南充、渠县、射洪、蓬溪、遂宁、中江、三台等县市农村地区的72条和44条不同 ...
    本站小编 Free考研考试 2022-01-02
  • 1996–2015年中国大气无机氮湿沉降时空格局数据集
    摘要&关键词摘要:大气氮沉降是全球氮循环的重要过程,对自然生态系统结构和功能有重要影响。伴随着工农业快速发展和城市化进程,中国区域的大气氮沉降在近几十年急剧增加。为了对日益增加的氮沉降的生态环境效应进行科学地评估,准确地获取中国大气氮沉降的空间格局及其动态变化数据是重要的前提和关键环节。在本研究中, ...
    本站小编 Free考研考试 2022-01-02
  • 中国典型生态系统生态站2001–2015年≥10℃积温数据集
    摘要&关键词摘要:热量资源是自然区域和自然带划分的重要依据,是农业生产的重要自然资源,通常以温度高低和积温多少来表征。10℃是喜温植物适宜生长的起始温度,也是喜凉作物迅速生长、多年生作物开始以较快速度积累干物质的温度。农业生产及科研部门以≥10℃积温及其相应的持续日数来衡量一个地区的农业气候生产潜力 ...
    本站小编 Free考研考试 2022-01-02
  • 基于遥感反演的1982–2015年中国北方温带和青藏高原高寒草地地上生物量空间数据集
    摘要&关键词摘要:地上生物量(Abovegroundbiomass,AGB)不仅能够表征草地可利用资源的现状、反映草地的载畜能力与承载力,还是草地碳库的一个重要组成部分。因此,长期动态的AGB空间数据集一方面对畜牧业的可持续发展和草地生态系统优化管理策略的制定具有重要意义,另一方面也是理解陆地生态系 ...
    本站小编 Free考研考试 2022-01-02
  • 2003–2005年中国通量观测研究联盟(ChinaFLUX)碳水通量观测数据集
    摘要&关键词摘要:基于微气象学理论的涡度相关通量观测技术实现了对生态系统尺度的生产力、能量平衡和温室气体交换等功能和过程的直接测定,其观测数据为陆地生态系统碳水循环过程的机理研究以及碳源/汇和水分利用的时空分布评价提供了重要的观测数据。本数据集为中国通量观测研究联盟(ChinaFLUX)首批观测站点 ...
    本站小编 Free考研考试 2022-01-02
  • 2000–2010年中国典型陆地生态系统实际蒸散量和水分利用效率数据集
    摘要&关键词摘要:蒸散是陆地生态系统水分循环和能量平衡的关键过程,水分利用效率是反映生态系统碳水循环间耦合关系的重要指标,二者在生态学、农学、水文学、气候学等多个学科中均具有重要的应用价值。涡度相关法被认为是现今唯一能直接测量生物圈与大气间物质与能量交换通量的标准方法,已成为生态系统尺度碳水交换通量 ...
    本站小编 Free考研考试 2022-01-02
  • 基于文献整合的中国典型陆地生态系统初级生产力、呼吸和净生产力数据集
    摘要&关键词摘要:陆地生态系统与大气间的碳交换是重要的生物地球化学循环过程,包含了生态系统的光合生产和呼吸利用,直接决定了生态系统的物质资源生产、生物多样性维持以及气候调节等功能。本文收集整理了2000–2015年中国区域公开发表的生态系统碳交换通量的文献资料,构建了中国区域典型陆地生态系统生产力和 ...
    本站小编 Free考研考试 2022-01-02
  • 中国南北样带典型森林土壤属性数据集
    摘要&关键词摘要:土壤作为地球表层系统的基本组成成分,在储存养分、维持植物生长、涵养水源、稳定和缓冲环境变化等方面发挥着重要作用。采用科学规范的调查监测方法获取土壤物理、化学和生物等系统的属性信息对于完善区域土壤属性数据库、揭示土壤空间分布规律具有重要意义,也是模型优化或参数本地化的重要基础。本研究 ...
    本站小编 Free考研考试 2022-01-02
  • 2013年中国典型生态系统大气氮、磷、酸沉降数据集
    摘要&关键词摘要:大气沉降是污染物质从大气圈去除最有效的过程之一,也是营养物质(如氮、磷、碱基离子)和有害重金属进入生态系统的重要途径。伴随降雨事件的湿沉降是大气沉降的重要途径,稳定的网络化观测是揭示大气湿沉降组分、时空格局及其影响因素最为直接有效的方法之一,可以为大气沉降的生态环境效应评估提供实时 ...
    本站小编 Free考研考试 2022-01-02