删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

实验室化学品纯化方法数据集

本站小编 Free考研考试/2022-01-02


摘要&关键词
摘要:通过收集书籍手册中的实验室化学品纯化方法数据和相关的理化性质数据,对收集得到的原始数据进行分类汇总和规范化处理,并利用数据采集规范和数据抽查回溯手段控制数据质量,通过软件算法保证数据集中关键数据项的正确性,最终建成实验室化学品纯化方法数据集。本数据集收录了实验室化学品的纯化方法数据和理化性质数据,共计5747条。实验室化学品纯化方法数据集的建成,可以为化学及生物化学实验科研人员进行实验研究提供有益的帮助。
关键词:实验室;化学品;纯化;理化性质

Abstract & Keywords
Abstract:?First we collected data on purification methods for laboratory chemicals and related physical and chemical properties data from manual books. Then we classified, summarized and standardized all the data. For quality control, we developed collection specifications and methods for data sampling and backtracking, which, coupled with algorithm programs, ensured the accuracy of the key data items. The dataset contains 5,747 records that fall into two subsets: one for purification method data and the other for physical and chemical properties data. The dataset of purification methods for laboratory chemicals can benefit both chemical and biochemical experimental researchers.
Keywords:?laboratory;?chemicals;?purification;?physical and chemical properties

数据库(集)基本信息简介
数据库(集)名称实验室化学品纯化方法数据集
数据通信作者李英勇(liyingyong@sioc.ac.cn)
数据作者李英勇、赵英莉
数据时间范围1912–2006年
地理区域世界各国
数据量2.75 MB
数据格式*.mdb
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/897
http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp
基金项目中国科学院信息化建设专项(XXH13505-03-103);国家基础科学数据共享服务平台项目(DKA2017-12-02-05);上海市科委项目(18DZ2294000)。
数据库(集)组成本数据集由1个ACCESS文件组成,包括一个数据表(LabChemPurification表)和3个检索窗体(CASRN检索、名称检索和顺序浏览窗体):共有5747条记录,包括实验室化学品的ID号、类别、名称、CASRN号、分子式、分子量、凝固点、熔点、沸点、相对密度、折射率、旋光度、比色指数、电离常数、纯化方法、来源文献和其他性质数据。

Dataset Profile
TitleA dataset of purification methods for laboratory chemicals
Data corresponding authorLi Yingyong(liyingyong@sioc.ac.cn)
Data authorsLi Yingyong, Zhao Yingli
Time range1912~2006
Geographical scopeWorldwide
Data volume2.75MB
Data format*.mdb
Data service system<http://www.sciencedb.cn/dataSet/handle/897>
<http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp>
Sources of fundingCAS informatization project during the Thirteenth Five-Year Plan – “Key Database Construction and Application Services for the Discipline of Chemistry” (XXH1350303-103); National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); Shanghai Chemistry & Chemical Industry Data Platform (18DZ2294000).
Dataset compositionThis dataset consists of one ACCESS file, including a data table (LabChemPurification table) and three retrieval forms (CASRN retrieval, name retrieval, and sequential browsing forms). There are a total of 5747 records, including the ID,class, name, CASRN number, formula, molecular weight, freezing point, melting point, boiling point, relative density, refractive index, optical rotation, coloration index, ionization constant, purification method, literature sources and other property data of laboratory chemicals.



引 言
化学家和生物化学家在进行实验研究时,往往会遇到实验用化学品是否需要纯化,以及如何纯化的问题。有些研究对化学品纯度要求较低,而有些研究对化学品纯度却有较高的要求,必须对实验室化学品进行纯化,使其理化性质数据达到一定的指标,才能满足实验要求。特别是随着半导体技术、特殊合金制备以及高生物活性物质的分离等方面的快速发展,对化学品纯度的要求越来越高。目前,化学品纯化方法信息分散于科技期刊和科技手册中,从期刊手册中查找数据不够方便,期刊手册上的数据内容也无法及时补充完善。此外,也没有相关的开放数据集可供使用。
针对化学家与生物化学家的实验需求,通过收集整理科技手册中的实验室化学品纯化方法和理化性质数据,建设完成了实验室化学品纯化方法数据集。通过此纯化方法数据集,化学家与生物化学家可以方便地查询实验用化学品是否需要纯化,如何纯化,以及化学品的理化性质数据。用户也可以随时补充完善最新的纯化方法和理化性质数据,以进行横向比较研究。

1 ? 数据采集和处理方法
1.1 ? 原始数据来源
实验室化学品纯化方法数据集的原始数据采集自《实验室化学品纯化手册》[1],此手册规范整理了2006年以前的相关科技期刊信息,记录了常用实验室化学品的纯化方法数据和理化性质数据,数据格式规范,内容较为详尽,采用此科技手册,大大减少了原始数据收集、校对与规范化处理的工作量。此数据集今后会持续建设,不定期补充期刊文献中新发表的纯化方法数据和理化性质数据,以持续反应最新的科研成果。
原始数据按采集要求录入后,再对采集数据进行规范化处理和质量校验,最终得到实验室化学品纯化方法数据。

1.2 ? 数据采集
原始数据为科技手册,首先介绍了实验室化学品常用的物理纯化技术和化学纯化技术,以及化学品纯化方法的未来发展方向,然后具体讲述了各种化学品的纯化方法,分为有机化学品、无机化合物、金属有机化学品以及生物化学品。这些纯化方法条目长度不等,有的只有一行,有的约有一页,甚至更多,如乙腈、苯、乙醇和甲醇等。有些条目还包括了可能的污染物和储存条件等信息。大多数条目里插入了与物理性质有关的更多信息,比如熔点、沸点、折射率、相对密度、旋光度(针对适用的化合物)和紫外吸收数据,部分条目有化合物分子量,几乎所有条目都附有化合物的CAS登录号。原始数据如图1所示。




图1 ? 原始数据示例
根据原始数据的这些类型和特点,设计了实验室化学品纯化方法数据集加工数据表,采用人工录入的方式,将原始手册中的实验室化学品纯化方法、理化性质和参考文献等数据,分别录入加工数据表中。加工数据表以化学品作为实体,将理化性质数据、纯化方法数据和参考文献数据作为其属性。制订了具体的数据采集录入规则:
(1)段落开头部分若是粗体字,说明这是一个新化学品条目;若段落开头不是粗体字,则此段内容属于上一段的化学品,在开头部分加入“$$”段落标识,内容并入上一段。
(2)新化学品条目开头的粗体字部分是化学品名称,若此部分结尾处有括号,则括号前数据是化学品俗名,括号中数据是化学品系统名称。
(3)化合物名称后中括号部分是化学品的CASRN号。
(4)CASRN号后面的粗体字部分是化学品的分子式和理化性质数据,各项间以逗号分隔,并以句号结尾。其中:“M”字符开头者是化学品分子量数据。“m”字符开头者是化学品熔点数据。“b”字符开头者是化学品沸点数据。“pK”字符开头者是可电离化合物的电离常数数据。若“pK”有上标,则上标数字是温度值;若没有上标,说明是室温(约15–25℃),若下标有“Est”字符,说明这是电离常数估计值。“[α]”字符开头者是化学品旋光度数据,其上标是温度,下标是光源波长。“\(n\)”字符开头者是化学品折射率数据,其上标是温度,下标是光源波长。所有数据项分别录入数据采集表的对应列中。若没有对应列,则录入“Other”列。
(5)理化性质数据之后的部分是化学品纯化方法数据,其中的中括号部分是纯化方法的来源文献信息,此部分可能存在多个纯化方法和多个来源文献。

1.3 ? 数据规范化处理
原始数据经采集整理后,录入实验室化学品纯化方法加工数据表。然后,根据数据集的设计,对加工数据表中的数据项进行规范化处理:去除CASRN号中的“-”字符,将其由字符串转换为整型数字,以便后续进行数据校验处理。最后,设计实验室化学品纯化方法数据表(数据表结构信息如表1所示),将加工数据表中的合格数据项存入此数据表,并添加流水号作为主键。
表1 ? 实验室化学品纯化方法数据表
序号属性名称数据类型属性说明
1ID数值流水号,主键
2Category字符化学品类别
3ChemName字符化学品名称
4CASRN字符化学品CASRN号
5MF字符分子式
6MW数值分子量
7FP数值凝固点,单位:℃
8MP数值熔点,单位:℃
9BP数值沸点,单位:℃
10DS字符相对密度,是20℃下目标物密度与4℃下水密度的比值。
11IOR字符折射率。以“^<”和“^>”括起来的部分是上标数据;以“^{”和“^}”括起来的部分是下标数据。缺省温度是20℃,缺省波长是钠D线平均波长。
12OPR字符旋光度。以“^<”和“^>”括起来的部分是上标数据;以“^{”和“^}”括起来的部分是下标数据。缺省温度是20℃,缺省波长是钠D线平均波长。
13Other字符其他性质数据
14CI字符比色指数
15DC字符电离常数。以“^<”和“^>”括起来的部分是上标数据;以“^{”和“^}”括起来的部分是下标数据。缺省温度是室温(约15–25℃)。
16Method字符纯化方法。其中,以字符“$$”标记新行行首。
17SrcDoc字符来源文献。其中,多个来源文献数据以分号分隔。



2 ? 数据样本描述
实验室化学品纯化方法数据集主要包括实验室化学品纯化方法数据表,此数据表中存储了实验室化学品的理化性质数据、纯化方法数据和来源文献信息。具体是实验室化学品的类别、名称、CASRN号、分子式、分子量、凝固点、熔点、沸点、相对密度、折射率、旋光度、比色指数、电离常数、纯化方法和来源文献数据,其属性名称和数据如表2所示。
表2 ? 实验室化学品纯化方法数据示例
序号属性名称属性说明范例
1ID流水号1
2Category化学品类别有机化学品
3ChemName化学品名称吖丁啶(氮杂环丁烷)
4CASRN化学品CASRN号503-29-7
5MF分子式C6H6O
6MW分子量57.1
7FP凝固点1.3℃
8MP熔点17.3℃
9BP沸点61℃
10DS相对密度0.846
11IOR折射率\({n}_{D}^{20}\) = 1.4575
12OPR旋光度[α]546=-123°(c 10,H20,24h后)
13Other其他性质闪点:?41.8℃
14CI比色指数45160
15DC电离常数pK25 11.29
16Method纯化方法本品用水(活性炭脱色)结晶成黄色针状晶体。如果其中含有游离酸,那么用二氯甲烷溶解,再用饱和碳酸钠、盐水洗涤,之后用硫酸镁干燥,蒸发最后将残留物重结晶。游离酸的熔点是203–204℃(dec),其pK1<1,pK2=3.70。铵盐熔点232℃(dec)(用丙酮溶液重结晶),氨基化合物的熔点239.2℃(用水重结晶)。
17SrcDoc来源文献Searles et al. J Am Chem Soc 78 4917 1956


3 ? 数据质量控制和评估
为保证实验室化学品纯化方法数据集的数据质量,在原始数据采集录入过程中制定了数据采集规范。同时采用抽捡的方式,随机抽取数据记录进行人工校对,以控制数据录入质量。为了解决数据的可追溯性问题,在原始数据采集时同时录入了数据来源号,此来源号由条目所在页码组成。由于工具书籍的编排具有严格的顺序性,所以可针对数据项的连续性进行校验。另外,在后续的数据处理中,若发现有数据遗漏或者数据质量问题,可以根据数据来源号追溯到原始数据,以进行校对修正。
对于数据集中的关键数据项,通过软件程序进行了自动校验。根据美国化学文摘社发布的CASRN号有效性验证规范[2],一个CASRN最多有十位数字,由连字符“-”分为三部分,从左边起的第一部分数字为二到七位数,第二部分数字为两位数,最后一部分为一个数字。最后一部分是整个CASRN号有效性的校验码,根据CASRN号的校验规则,数据集自主开发了程序软件,自动验证了录入CASRN号的正确性。
对于实验室化学品纯化方法数据集中同时有分子式和分子量的条目,设计了通过化学品分子式计算分子量的算法程序,此算法考虑了晶体、有机盐和聚合物分子式的特殊性,对这类分子式进行了特殊处理。最终通过分子式计算得到化学品的计算分子量,并与录入的分子量进行比对,以验证录入的分子式和分子量的正确性。
考虑到手册结尾有化学品名称索引和CAS索引部分,还安排专人将化学品名称、CASRN号与页码信息与加工数据表中的相关信息进行校对,以筛选出人工录入时的错误,进一步提高了实验室化学品纯化方法数据集的数据质量。

4 ? 数据使用方法和建议
实验室化学品纯化方法数据集采用MDB格式存储,使用者可以通过Microsoft Office Access?软件打开数据集,然后通过浏览或检索窗体对数据集进行查看、检索和筛选等操作,如图2–4所示。数据集共有17个数据项,分别是化学品的ID号、类别、名称、CASRN号、分子式、分子量、凝固点、熔点、沸点、相对密度、折射率、旋光度、比色指数、电离常数、纯化方法、来源文献和其他性质数据,均支持检索和筛选操作。当鼠标悬停于相对密度、折射率、旋光度或电离常数项时,会有此项的说明信息显示,如图2所示。




图2 ? 实验室化学品纯化方法数据集浏览窗口示例




图3 ? 实验室化学品纯化方法数据集名称检索示例




图4 ? 实验室化学品纯化方法数据集CASRN检索示例
化学专业数据库网站上也提供了实验室化学品纯化方法数据集服务[3],网站检索页面如图5所示。网站主要提供了三种Web检索方式:按化合物名称检索、按CASRN号检索和按分子式检索。另外,网站将本数据集与其他数据集进行了有机整合,通过网站检索可以获得目标化学品更多的性质数据。




图5 ? 实验室化学品纯化方法数据集Web检索示例
实验室化学品纯化方法数据集中的数据描述具有一定的专业性,为了保证数据格式的统一,数据集中采用某些符号和缩写来代替相应的专业名词;为了满足在数据集中存储及检索的需要,特制定了缩写符号的数据集存储格式。详细说明如表3所示。
表3 ? 实验室化学品纯化方法数据集符号和缩写说明表
序号缩写符号数据集存储格式说 明
1\({\left[\alpha \right]}_{D}^{20}\)[α]^<20^>^{D^}旋光度,下标为光源波长,D表示钠D线平均波长;上标为温度
2\({n}_{D}^{20}\)n^<20^>^{D^}折射率,下标为光源波长,D表示钠D线平均波长;上标为温度
3\({d}_{4}^{20}\)d^<20^>^{4^}相对密度,指一定体积的该物质在20℃下的质量与等体积纯水在4℃下的质量之比
4\({pK}_{1}^{25}\)pK^<25^>^{1^}电离常数,指25℃下该物质的一阶电离常数,若下标中出现Est字样,说明是估计值,否则是实验值
5EtEt乙基
6MeMe甲基
7εε分子消光系数
8IRIR红外光谱
9UVUV紫外光谱
10NMRNMR核磁共振
11λmaxλ^{max^}(光谱的)最大吸收波长

相对于工具书籍只能根据目录和索引来浏览和检索,实验室化学品纯化方法数据集的使用方法更为便捷和灵活。不仅可以根据化学品的理化性质数据进行检索和筛选,而且可以根据用户感兴趣的纯化方法关键词进行筛选和聚类分析。本数据集的信息描述言简意赅,收集整理的大都是实验室常用的化学品信息,可以作为化学和生物化学科研人员进行实验研究时的参考数据集。


[1]
ARMAREGO WLF, CHAI CLL. 实验室化学品纯化手册[M]. 北京: 化学工业出版社, 2006.

+?CSCD?·?Baidu Scholar

[2]
American Chemical Society. Check Digit Verification of CAS Registry Numbers[EB/OL]. [2018-10-08]. http://www.cas.org/content/chemical-substances/checkdig.

+?CSCD?·?Baidu Scholar

[3]
上海有机所. 化学品纯化方法数据库. [2018-10-08]. http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp.

+?CSCD?·?Baidu Scholar


数据引用格式
李英勇, 赵英莉. 实验室化学品纯化方法数据集[DB/OL]. Science Data Bank, 2019. (2019-11-29). DOI: 10.11922/sciencedb.897.

稿件与作者信息

论文引用格式
李英勇, 赵英莉. 实验室化学品纯化方法数据集[J/OL]. 中国科学数据, 2020, 5(2). (2020-06-10). DOI: 10.11922/csdata.2019.0072.zh.
李英勇Li Yingyong

主要承担数据库设计和数据库建库工作。
liyingyong@sioc.ac.cn
(1978—),男,河南南阳人,硕士,高级工程师,研究方向为化学信息学。

赵英莉Zhao Yingli

主要承担数据采集、基础数据加工和数据管理工作。
(1970—),女,辽宁沈阳人,硕士,副研究馆员,研究方向为化学信息学。


相关话题/数据 实验室 理化 信息 文献

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 鲁西九龙山剖面寒武系苗岭统–芙蓉统之交碳酸盐岩显微图像数据集
    摘要&关键词摘要:寒武纪时期华北地台处于典型的陆表海环境,苗岭统–芙蓉统之交华北地台发育了种类繁多的碳酸盐岩。本数据集主要收集了鲁西九龙山剖面寒武系碳酸盐岩104个岩石薄片的825张显微照片,并采用Embry&Klovan修订过的Dunham分类方案,将所涉及的碳酸盐岩进行了系统的划分和描述。本数据 ...
    本站小编 Free考研考试 2022-01-02
  • 鄂尔多斯盆地中寒武统徐庄组岩石薄片显微图像数据集
    摘要&关键词摘要:寒武纪生命大爆发一直是国际研究的热点,作为全球地质事件及地质演化不可缺少的地区之一,鄂尔多斯盆地寒武系基础地质研究尚待深入,其油气勘探也尚待突破。为了进一步丰富该地区的基础地质数据,本次研究精选鄂尔多斯盆地周缘9条中寒武统徐庄组野外剖面,对192个岩石样品进行系统的采样、制片及鉴定 ...
    本站小编 Free考研考试 2022-01-02
  • 上扬子西北缘震旦系灯影组碳酸盐岩显微图像数据集
    摘要&关键词摘要:本文报道的上扬子西北缘震旦系灯影组为南华纪冰期结束以后在上扬子地区沉积的首套大规模碳酸盐岩地层。其不仅记录了震旦纪对全球气候回暖的响应,而且还记录了早寒武世骨骼动物大爆发前夕的海洋微生物的演化与碳酸盐岩生长的信息,同时这些微生物生长形成的丘滩体白云岩正成为目前四川盆地深层古老碳酸盐 ...
    本站小编 Free考研考试 2022-01-02
  • 中扬子区中生代含变质岩屑砂岩的显微图像数据集
    摘要&关键词摘要:本文收集和归纳了中扬子北缘三叠系至侏罗系砂岩的显微图像数据。样品主要为中粗粒砂岩。我们系统鉴定和部分统计了86件岩石样品的碎屑组分,识别出岩屑石英砂岩、石英岩屑砂岩和长石石英砂岩等8种不同类型的砂岩,拍摄了287张岩石显微图像照片。我们重点描述了含变质岩屑的砂岩显微图像特征,并对变 ...
    本站小编 Free考研考试 2022-01-02
  • 渤海湾盆地渤中凹陷潜山及上覆砂砾岩显微图像数据集
    摘要&关键词摘要:渤海湾盆地东临胶辽隆起区,西接太行山隆起区,南北分别被鲁西隆起区和燕山褶皱带所限,总体上呈不规则的菱形,面积约20×104km2,为新生代裂谷盆地叠加在前新生代克拉通盆地之上的大型叠合(或残留)盆地,前新生代基底发育大量潜山。鉴于渤海海域潜山基础地质研究程度较低,至今可以公开查阅的 ...
    本站小编 Free考研考试 2022-01-02
  • 塔西北与华南地区晚奥陶世碳酸盐岩(含生物碎屑)显微图像数据集
    摘要&关键词摘要:晚奥陶世是漫长的地质历史时期中至关重要的一段时期,在此期间沉积的碳酸盐岩记录了地球表生环境的变化,为奥陶纪末生物灭绝事件的研究奠定了基础。本研究利用生物偏光显微镜对研究区晚奥陶世碳酸盐岩薄片图像进行采集鉴定。研究区包括塔西北柯坪大湾沟及华南地区宜昌普溪河剖面,涉及的地层时代包括桑比 ...
    本站小编 Free考研考试 2022-01-02
  • 鄂尔多斯盆地东北缘中侏罗世碎屑岩显微图像数据集
    摘要&关键词摘要:薄片显微图像是地质研究工作中不可缺少的基础数据,而大数据正在成为科学发现的新引擎,显微图像数据集则是地质大数据的一种有力的表现形式。基于此,对鄂尔多斯盆地东北缘中侏罗世地层进行样品采集、薄片磨制、镜下鉴定及拍照,整理出该区域的显微图像数据集。包括78个碎屑岩的208张单偏光和正交偏 ...
    本站小编 Free考研考试 2022-01-02
  • 北拉萨地体白垩纪郎山组岩石薄片显微图像数据集
    摘要&关键词摘要:沉积微相研究是碳酸盐岩沉积环境研究的基础,然而高度概括的微相划分容易丢失沉积环境的渐变演化过程。一条剖面所有岩石薄片的显微图像可以很好地补充不同微相之间的连续变化过程。本文以西藏中部郎山组碳酸盐岩为对象,对区域上3条平行剖面、559个薄片进行显微拍照,并记录了样品的采集位置、地层时 ...
    本站小编 Free考研考试 2022-01-02
  • 鄂尔多斯盆地东缘临兴区块上古生界致密砂岩显微图像数据集
    摘要&关键词摘要:鄂尔多斯盆地东缘临兴区块上古生界发育大型致密砂岩气藏,自下而上发育本溪组、太原组、山西组、下石盒子组、上石盒子组和石千峰组。致密砂岩储层具有低孔、低渗和非均质强的特点,且平面上砂体展布变化较大。鉴于国内对非常规致密砂岩储层的研究处于攻关阶段,临兴区块的致密砂岩数据共享显得尤为重要。 ...
    本站小编 Free考研考试 2022-01-02
  • 藏南特提斯喜马拉雅带晚白垩世–早古近纪碳酸盐岩显微图像数据集
    摘要&关键词摘要:藏南特提斯喜马拉雅带晚白垩世–早古近纪浅海碳酸盐岩沉积是印度北缘演化和东特提斯洋关闭的重要历史见证。本数据集使用偏光显微镜,对藏南特提斯喜马拉雅带上白垩统波林夏拉组、旧堡组、遮普热山坡组及早古近系宗浦组碳酸盐岩,进行了岩石薄片偏光显微照片采集。本岩石薄片显微图像数据集共包括5条地层 ...
    本站小编 Free考研考试 2022-01-02