删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

全球科学数据出版发展态势分析

本站小编 Free考研考试/2022-01-02


摘要&关键词
摘要:科学数据出版是推动科学数据共享,实现科学数据价值最大化的重要方式。本文通过对全球科学数据出版数据进行分析,探求全球科学数据出版发展态势。对Web of Science数据库中的数据论文和数据集记录进行检索,通过数据统计方法从时间、国家/地区、研究方向、出版来源、影响力等维度进行分析。从时间维度看,科学数据出版整体呈现蓬勃发展的态势。国家/地区维度上,美国处于领先地位,中国虽然取得巨大成就,但与美国依旧存在巨大差距。研究方向维度上,科学数据出版在自然科学、社会科学等研究领域均具有重要的科学价值。出版来源维度上,中国虽然科学数据出版数量领先,但科研人员更倾向于选择国外出版物、存储平台进行数据发布。影响力维度上,中国科学数据的影响力与欧美国家存在一定差距。
关键词:科学数据;数据出版;数据论文;数据集;态势分析

Abstract & Keywords
Abstract:?Scientific data publishing is an important way to promote the sharing of scientific data and maximize the value of scientific data. We analyzed in the paper the data on global scientific data publishing to explore the development trend of global scientific data publishing.We retrieved the data papers and dataset records in the Web of Science database, and analyzed them from the dimensions of time, country/region, research direction, publication source, influence, etc. by means of the data statistical method. In terms of time dimension, scientific data publishing has shown a vigorous development overall. From the perspective of countries/regions, the United States is in a leading position. Although China has made great achievements, there is still a huge gap between China and the United States. From the perspective of research direction, scientific data publishing has important scientific value both in research fields, such as natural sciences and social sciences. In terms of publication sources, although China leads the way in the number of scientific data publications, researchers tend to publish data through foreign publications and storage platforms. When it comes to influence, to catch up with European and American countries, China still has a long way to go.
Keywords:?Key words: scientific data;?data publishing;?data paper;?dataset;?trend analysis



1 ? 科学数据出版概述
数据密集型知识作为科学研究的第四范式,科学数据出版逐渐成为数据密集型科学发现的重要学术传播方式[1]。2010年国际科技数据委员会在年会上对数据出版的概念进行讨论[2]。欧盟在2014年开始启动的地平线2020计划中,提出在欧洲的公共资助研究中,要确保科学出版物的开放获取,并促进科学数据的开放获取[3, 4]。在我国,2017年12月,中国科学院计算机网络信息中心主持编制的《信息技术科学数据引用》GB/T 35294-2017准,规定了科学数据引用元素描述方法、引用元素详细说明、引用格式等方面的内容[5]。2018年3月,国务院办公厅印发《科学数据管理办法》,明确主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据[6]。2019年2月,中国科学院印发了《中国科学院科学数据管理与开放共享办法(试行)》[7],该办法以中科院数据工作问题和需求为导向,聚焦科学数据管理与开放共享的突破点与保障机制。2019年11月,国际科学理事会数据委员会(CODATA)发布《科研数据北京宣言》[8],肯定了世界各地已发布的数据政策和实施进展,并在此基础上阐明了推进相关领域多边合作的核心原则。随着政府、组织或机构在
政策、制度等层面对科学数据管理工作的引导与扶持,科学数据出版工作蓬勃发展,同时科学数据出版的相关学术理论及实践研究不断丰富。
科学数据是科研成果的重要组成部分,科学数据出版作为一种新的科学数据共享模式,是推动科学数据共享,实现科学数据价值最大化,加速科技创新与经济发展的重要方式。在学术研究领域,相关****对科学数据出版的定义[9-11]、科学数据的出版模式[12-14]、科学数据的出版平台[3, 15]、科学数据的质量控制[1, 5, 9, 11, 12, 16-21]、科学数据的影响力评价[22, 23]、科学数据的共享问题[24-26]等理论及实践问题进行研究。其中,文献[12]在关于科学数据出版模式的研究中将其归纳为3种:独立的数据出版、论文附件形式数据出版、数据论文出版。在上述出版模式中,独立的数据出版是指将数据作为独立的对象存储在数据仓储中[24];论文附件形式出版指的是一些学术期刊与数据仓储合作,期刊负责论文出版,数据仓储平台负责数据存储的形式;数据论文的出版指数据生产者按照一定科学规范形成的观察、实验、计算分析等原始数据或集成数据库(集)通过专门的数据论文进行描述,以促进数据的可发现、可获取、可理解和再利用[1]。目前,已有越来越多的期刊专注于科学数据出版,如《Data in Brief》、《Scientific Data》、《Earth System Science Data》以及国内的《中国科学数据》、《全球变化数据学报》等。同时用于存储科学数据的数据存储平台也不断涌现,如Gene Expression Omnibus、Figshare、Zenodo以及国内的ScienceDB存储库等。科学数据出版的蓬勃发展也吸引了越来越多的商业性数据库和搜索引擎的关注,如2012年科睿唯安(Clarivate)发布的数据引文索引(Data Citation Index,DCI)服务平台,以及2018年Google推出的专用数据集搜索引擎Dataset Search。
目前,科学数据出版主要包括数据集的独立出版、数据集作为论文附件形式出版、数据论文的出版等模式,因此科学数据出版在数据库中涉及的文献类型主要为数据集和数据论文。在本文的研究中,为更好地获取全球范围内的科学数据出版数据,论文选择Web of Science数据库产品,通过检索数据论文(Data Paper)、数据集(Data Set、Data Study)记录,从多个维度进行科学数据发展态势分析。

2 ? 研究方法
为从全球视角对科学数据出版态势进行分析,促进科学数据出版事业的发展。文中选择Web of Science数据库,设定出版年为1900–2020年(年限以数据库所收录数据的出版时间确定),文献类型为Data Paper,共检出数据论文9,453条记录(检出记录出版年份分布在2006–2020年间),统计时间为2021年5月12日。其中Web of Science核心合集检出9,280条记录,MEDLINE数据库检出8,460条记录,BIOSIS Previews数据库检出7,771条记录,INSPEC数据库检出937条记录,中国科学引文数据库检出44条记录。上述数据中,国内的《中国科学数据》和《全球变化数据学报》期刊虽被中国科学引文数据库收录,但文献类型被标注为Article,故未被包含到上述检索结果中。针对此种情况,本文对《中国科学数据》和《全球变化数据学报》进行单独检索及处理,共获取297条数据论文记录,其中,2017年39篇,2018年45篇,2019年121篇,2020年92篇。
选择Web of Science数据库下的Data Citation Index数据库,设定出版年为1700–2020年(年限以数据库所收录数据的出版时间确定),共检出12,401,617条记录(检出记录出版年份分布在1800–2020年),统计时间为2021年5月8日。Data Citation Index数据库包括Repository(知识库)、Data Study(数据研究)、Data Set(数据集)、Software(软件)4种记录[27]。其中Repository是数据库或者数据记录的集合,用于存储并提供对Data Study、Data Set数据的访问;Data Study是存储在知识库中的关于研究或实验的描述信息,以及与该Data Study相关的数据;Data Set是知识库收集的与数据研究或实验等相关的数据文件,文件格式包括电子表格、音频、视频等;Software是知识库存储的软件,可以是一段源代码、一个模型或一个完整的程序。由于Data Study包含一些实验或调查相关的数据,研究中将Data Study、Data Set统称为“数据集”进行相关分析研究。数据检索中,通过将数据类型限定为Data Study、Data Set,共获取12,218,549条记录。
为从不同角度解析全球科学数据的出版情况及发展态势,研究中设定时间、国家/地区、研究方向、出版来源、影响力等5个维度。基于各个维度分别对数据论文及数据集的出版数据进行检索,探析全球科学数据出版发展态势,特别是我国科学数据的发展态势,以期为我国科学数据出版政策制定及开展相关研究提供参考。

3 ? 全球科学数据出版发展态势
3.1 ? 时间维度
数据论文全球及TOP 5国家从时间维度(年份)呈现的数量分布情况中,数据库中检索出Data Paper类型文献9453条记录。另外,检索《中国科学数据》和《全球变化数据学报》期刊获取记录297条,其中66条记录缺少国家字段信息。鉴于两份期刊数据绝大部分为中国科研人员发表的数据论文,因此对其数据通过人工方式进行简单处理。将297条记录按照年份合并到全球的出版数据中,其中的295条记录按照年份合并到中国的出版数据中。数据论文的全球出版数据中,2006年为1篇,2007–2010年均为0篇,图1选取2011–2020年数据论文出版数据进行呈现出版趋势。从全球数据论文出版数量以及趋势线可知,数据论文出版从2011–2020年整体呈现快速上涨态势。另外,从出版数量排名前5的国家看,其数量也基本保持逐年增长的态势。全球数据集及TOP5国家从时间维度(年份)呈现的出版数量分布情况,如图2所示。从全球数据集的发布数量及趋势线可知,2001年以来,全球数据集从年发布数量4万左右,到2019年达到年发布量137万之多的峰值。2001–2019年数据集的数量虽然出现波动(数据库中2020年数据集的数量处于不断更新状态),但整体上呈现上涨趋势。在时间维度上融入国家维度信息时,Data Citation Index数据库中的数据集(Data Set、 Data Study类型数据)记录中有9,582,355 条记录(约占78%)不包含国家字段。但通过对部分国家最早出现数据集的时间进行检索,可知美国为1837年,中国(不含台湾)为1989年,加拿大为1974年,德国为1971年,日本为1972年,英国为1837年,挪威为1974年,荷兰为1960年,法国为1922年。虽然各个国家数据集的发布起始时间会受到数据库收录数据全面性、完整性等因素的影响,而存在一定误差,但是结合历史等因素,基本可以认为我国发布数据集的最早时间均要晚于上述几个国家。




图1 ? 数据论文年度分布情况




图2 ? 数据集年度分布情况
综合上述时间维度数据,从数据库中收录的自1800年以来出版的数据集,到21世纪初期开始出版的数据论文,都可以看作是科学数据出版的不同形式或延续。从时间及数量规模上看,数据集出版历史悠久,已经形成庞大的出版规模。数据论文出版的出现时间较短,在年度出版数量上虽然增加迅速,但是从规模上可以认为其尚处于初期发展阶段。同时上述数据也可以在一定程度上反映出,欧美国家特别是美国,在科学数据共享工作中从数据集出版到数据论文出版,均在数量上占据优势。在我国,中国科学院为实现科学数据的管理与共享,于1983年提出了“科学数据库及其信息系统”项目,先后经历了信息化建设、科学数据资源整合、科学大数据工程等发展历程,该项目涵盖化学、生物等多个学科数据,并取得了显著的社会效益及一定的经济效益[28]。结合上述检索数据,对于数据论文的出版,我国无论是从数量还是起始时间,基本能与欧美等发达国家基本保持同步。对于数据集的出版,在数据库中收录的最早时间为1989年,到2020年,在有国家字段的记录中我国共有16万多条。结合中国科学院的科学数据库建设时间,基本可以认为我国在上世纪80年代初开始科学数据相关管理与共享建设工作,因此,从数量上我国科学数据出版事业在较短时期内已经取得了很大发展与成就。

3.2 ? 国家/地区维度
在对文献类型为Data Paper的数据论文进行国家维度的统计时,由于数据论文出版中存在不同国家间研究人员合作的情况,同一论文会被多次统计,划分到多个国家,所以基于国家维度的记录总数要远远多于9,453条。数据论文最终进行国家维度信息统计时,将中国数据增加295条记录(增加《中国科学数据》、《全球变化数据学报》出版的数据论文)。在对数据集进行国家维度的统计时,78%的记录缺少国家字段信息,但从特定国家的数据集最早出版时间、已有的特定国家的数据记录出版来源分布等角度,也能获取一些有效信息。表1是排名前20的数据论文国家分布情况,其中,美国数据论文出版数量为2,165篇,紧跟其后的国家是中国(不含台湾)1284篇,德国897篇,英国895篇,意大利710篇,法国553篇,日本545篇,印度474篇,西班牙469篇,加拿大466篇等。科学数据论文的数量上,美国作者参与的论文占据绝对优势,排名前10的国家也基本上为发达国家,作为发展中国家的中国、印度分别排名第2和第8,可以反映出中印两国在数据论文出版方面取得的成就。表2是排名前20的数据集国家分布情况,虽然受限于大部分记录缺少国家信息,但是依旧能从数据中看出,美国以132万之多的数据集记录数量在1221万多总记录数量中占据重要地位,也在一定程度上反映了美国科学研究工作中的数据开放共享理念及成就。
表1 ? 数据论文国家/地区分布数量TOP 20
序号国家记录数量序号国家记录数量
1美国2,16511澳大利亚425
2中国(不含台湾)128412俄罗斯363
3德国89713巴西333
4英国89514伊朗304
5意大利71015尼日利亚294
6法国55316荷兰288
7日本54517瑞士285
8印度47418韩国282
9西班牙46919马来西亚253
10加拿大46620瑞典229

表2 ? 数据集国家/地区分布数量TOP 20
序号国家记录数量序号国家记录数量
1美国1,323,24411澳大利亚57,084
2中国(不含台湾)161,07212瑞士52,528
3加拿大155,28213瑞典47,041
4德国142,41214西班牙42,687
5日本116,37915丹麦28,822
6英国114,06816巴西22,421
7挪威93,61017韩国22,123
8荷兰76,44418新加坡20,428
9法国69,07619比利时18,872
10意大利59,95220以色列17,081

综合上述国家维度数据,科学数据出版作为科学数据价值最大化,推动科技创新的重要途径,均受到发达国家和发展中国家及科研群体的关注与推动。从全球层面,在数据论文和数据集的出版数量上,发达国家整体呈现出了较大优势,基本可以反映出国家的经济和科技实力与科学数据出版规模间的影响关系。作为新兴经济体的中国、印度等在科学数据出版数量上的表现,反映出国家经济发展的过程中,科学数据共享作为国家科技实力提升的重要组成部分而受到关注与推动。结合上述科学数据出版数量数据,目前我国科学数据出版数量与美国虽存在差距,但我国是在相对较短的时期内取得的成绩,这也反映出我国科学数据开放共享事业的快速发展趋势,以及未来的巨大发展潜力。

3.3 ? 研究方向维度
从研究方向维度分析,论文采用数据库中提供的基于研究方向的数据记录分类,其中表3为数据论文的研究方向分布情况(不包括《中国科学数据》、《全球变化数据学报》数据),表4为数据集的研究方向分布情况。对数据论文和数据集的各个研究方向的总量进行统计,最终数据记录总量均大于实际记录总量,可见存在同一数据论文或数据集划分到多个研究方向的现象,可视为存在学科交叉。
表3 ? 数据论文研究方向TOP 20
序号研究方向记录数量占比(数量/总量)
1科学技术及其他主题798084.42%
2数学计算生物学215322.78%
3基因遗传200621.22%
4生物化学分子生物学197520.89%
5生态环境科学151716.05%
6农业115612.23%
7生物多样性保护8579.07%
8气象学大气科学8378.85%
9公共环境职业卫生7217.63%
10情报学图书馆学6747.13%
11计算机科学6586.96%
12植物科学6526.90%
13生命科学生物医学及其他主题6296.65%
14神经科学神经学6166.52%
15传染病5876.21%
16药理学5565.88%
17动物学5465.78%
18地质学5075.36%
19心血管系统心脏病学4094.33%
20肿瘤学4014.24%

表4 ? 数据集研究方向TOP 20
序号研究方向记录数量占比(数量/总量)
1基因遗传4,427,27236.23%
2科学技术及其他主题3,088,85425.28%
3生物化学分子生物学2,770,27822.67%
4晶体学1,391,38411.39%
5地质学917,9897.51%
6生态环境科学885,9527.25%
7地理学602,9494.94%
8社会科学及其他主题483,8453.96%
9微生物学413,2753.38%
10艺术、人文及其他主题364,4892.98%
11化学260,3482.13%
12光谱学237,5331.94%
13海洋学207,5511.70%
14工程147,8691.21%
15材料科学140,4861.15%
16生物多样性保护129,8301.06%
17地球化学地球物理125,9401.03%
18气象学大气科学99,7950.82%
19进化生物学80,8700.66%
20物理学73,9950.61%

在数据论文的研究方向中,数量居于第1位的科学技术及其他主题占记录总数量的84.42%。如果在统计时剔除科学技术及其他主题研究方向,可检索出8895条记录,约占记录总量的94%。因此可以认为直接使用数据库中的研究方向划分体系能够合理体现数据论文的分类,同时也反映出科学技术及其他主题研究方向过于宏观。数据论文其他研究方向的数据分布中,数学计算生物学记录数量为2,153篇,占据总量的22.78%;基因遗传记录数量为2,006,占据总量的21.22%;生物化学分子生物学记录数量为1,975,占据总量的20.89%;生态环境科学记录数量为1,517,占据总量的16.05%;农业记录数量为1,156,占据总量的12.23%;生物多样性保护记录数量为857,占据总量的9.07%;气象大气科学记录数量为837,占据总量的8.85%;公共环境职业卫生记录数量为721,占据总量的7.63%;情报学图书馆学记录数量为674,占据总量的7.13%。对《中国科学数据》和《全球变化数据学报》的数据论文研究方向单独进行统计,其研究方向主要分布于科学技术及其他主题208条、地质学16条、生态环境科学11条、植物科学10条、农业9条、林业7条、矿物学7条、情报学图书馆学6条等。
数据集的研究方向中,基因遗传记录数量为4,427,272,占据总量的36.23%;科学技术及其他主题记录数量为3,088,854,占据总量的25.28%;生物化学分子生物学记录数量为2,770,278,占据总量的22.67%;晶体学记录数量为1,391,384,占据总量的11.39%;地质学记录数量为917,989,占据总量的7.51%;生态环境科学记录数量为885,952,占据总量的7.25%;地理学记录数量为602,949,占据总量的4.94%;社会科学及其他主题记录数量为483,845,占据总量的3.96%;微生物学记录数量为413,275,占据总量的3.38%;艺术人文及其他主题记录数量为364,489,占据总量的2.98%。
从研究方向上看,数据论文和数据集的研究方向分布具有一定的相似性,主要分布于自然科学等侧重于实验数据支撑的研究方向。但在社会科学领域也有分布,如数据论文的情报学图书馆学研究方向,数据集的社科科学、艺术人文等研究方向。综上所述,科学数据作为相应研究方向的数据支撑,无论是对自然科学的实验分析,还是对社会科学的实证研究都具有重要的价值。

3.4 ? 出版来源维度
从出版物来源维度分析,数据论文(不包括《中国科学数据》和《全球变化数据学报》数据)绝大部分来源于《Data in Brief》、《Scientific Data》,数量约占到79%左右,如图3所示。其中,《Data in Brief》是Elsevier公司以数据存储、共享为导向的学术期刊,接受所有学科的开放投稿,由于Elsevier收录论文后,通常会给论文作者发送邮件建议作者将科学数据进行出版,可以认为是《Data in Brief》出版数据论文数量占据重要地位的原因之一。《Scientific Data》是Nature出版集团的开放获取在线期刊,接收自然科学和社会科学领域论文,旨在帮助科研人员发布、发现和重用研究数据,该期刊对研究数据的开放起到了里程碑性质的推动作用[4]。论文通过对来自中国的数据论文出版来源进行检索,可以发现中国的数据论文在国外刊物上出版排名前4的出版物中,《Data in Brief》(国外出版物)涉及509篇,《Scientific Data》(国外出版物)涉及214篇,《Gigascience》(国外出版物)涉及77篇,《Earth System Science Data》(国外出版物)涉及44篇等。通过检索《中国科学数据》、《全球变化数据学报》的出版数据可知,《中国科学数据》和《全球变化数据学报》出版中国数据论文记录共有295条,由此基本可以推断中国****比较倾向于通过国外出版物发表数据论文。




图3 ? 数据论文出版来源分布情况
数据集在存储平台的分布情况如图4所示,数据集相对于数据论文在各出版途径的数量分布上相对比较分散,可以看出数据集存储平台在全球的多样化发展态势。其中,Figshare(https://figshare.com/)是一个在线数据知识库,用于存储、分享和发现科研数据;Gene Expression Omnibus[29]是一个基因表达数据仓库,用于从任何物种或人造的来源检索基因表达数据;Cambridge Structural Database(https://www.ccdc.cam.ac.uk/solutions/csd-core/components/csd/)是世界上小分子有机和金属有机晶体结构的储存库,收录了全世界范围内所有已认可的有机及金属有机化合物的晶体结构;Zenodo(https://www.zenodo.org/)与Figshare一样,都是知名的多学科数据分享平台,用于存储、分享和发现科研数据; US Census Bureau TIGER/Line Shapefiles(https://www.census.gov/geographies/mapping-files/time-series/geo/tiger-line-file.2018.html)提供了人口普查的地理和制图信息;Pangaea(https://www.pangaea.de/about/)作为开放访问库运行,旨在归档、发布和分发来自地球系统研究的地理参考数据;UniProt Knowledgebase(https://www.uniprot.org/)包括蛋白质序列数据以及大量注释信息;ArrayExpress Archive(https://www.ebi.ac.uk/arrayexpress/about.html)是主要科学期刊推荐的存储库之一,用于存储来自微阵列和测序平台的功能基因组学数据,以支持可重复的研究。同样,通过对来自中国的数据集的出版途径进行检索后可知,Plant Transcription Factor Database存储库(中国)涉及65,535个,Gene Expression Omnibus存储库(美国)涉及52,981个,Animal QTL Database存储库(美国)涉及12,398个,European Nucleotide Archive存储库(英国)涉及11,592个,Genbank存储库(美国)涉及7,182个,Zenodo存储库(瑞士)涉及6,328个,Compendium Of Protein Lysine Acetylation存储库(中国)涉及3,311个,Harvard Dataverse存储库(美国)涉及444个,IEEE Dataport存储库(美国)涉及269个,Mass Spectrometry Interactive Virtual Environment存储库(美国)涉及263个,World Data Centre For Climate存储库(德国)涉及225个,Peking University Open Research Data Platform存储库(中国)涉及113个。虽然数据集缺少国家字段的记录较多,但是上述信息也基本可以反映出:在数据集的出版上,中国的数据集虽同样存在倾向于国外数据集平台出版的问题。但相对于数据论文的出版,国内的数据集出版平台也为其提供了重要的出版途径。




图4 ? 数据集存储平台分布情况
综上所述,全球范围内,数据集相对于数据论文的出现时间要早很多,其出版途径也相对更加多样化。研究中对Data Citation Index数据库中出版年为2020年之前的Repository(知识库)数据记录进行检索,共获取9个来自中国(不包括台湾)的知识库,如表5所示。Data Citation Index数据库收录的我国建设的知识库主要为2000年以后,其囊括的数据集的数量约7万余条(在数据库中检出国家信息为中国的数据集的总数量约16万余条),可知通过国外出版途径发布数据集的现象要弱于数据论文。在相关研究中,将出版途径却侧重于国外出版平台的现象称为“科学数据外流”[30],其原因归纳为:国外科学数据出版平台的影响力及吸引力显著优于国内;国内科技评价体系推动数据出版偏重国外途径;国外学术出版机构要求提交科学数据等。其中,科研人员出版倾向可以认为是数据主动外流,科技评价体系的影响及国外期刊数据存储政策要求可以认为是数据的被动外流。针对上述现象,除了制定相应政策法规引导相关出版机构组织投入更多资金推动科学数据出版平台的发展,提升对科研人员的吸引力外,还需改变人才评价机制,鼓励科研人员通过国内科学数据平台发布数据,推动我国科学数据出版事业的发展。
表5 ? Data Citation Index数据库中收录的中国科学数据存储平台
知识库国家出版年数据集备注
Geoscientific Data & Discovery Publishing System (Geology in China)中国201793无国家字段
Science Data Bank中国2015378无国家字段
Peking University Open Research Data Platform中国2015159部分无国家字段,标注中国科研人员参与113条
Global Change Research Data Publishing and Repository中国2014839无国家字段
Global Catalogue of Micoorganisms中国、比利时2013--
Plant Transcription Factor Database中国201365,535标注中国科研人员参与65,535条
Cold and Arid Regions Science Data Center at Lanzhou中国2010278无国家字段
Compendium of Protein Lysine Acetylation中国20103,311标注中国科研人员参与3,311条
MiCroKit (midbody, centrosome, kinetochore, telomere and spindle)中国2010--
备注:表中数据不包括中国台湾。


3.5 ? 影响力维度
在Web of Science数据库中,科学数据出版的影响力评价方法主要采用数据论文或数据集被引用频次作为衡量指标。目前也有研究[23]将数据论文的被引次数与出版物的影响因子结合进行数据论文影响力的评价。通过将检索出的Data Paper文献类型的影响力数据与《中国科学数据》和《全球变化数据学报》的影响力数据进行整合,绘制图5所示的全球范围每年数据论文出版数量与每年度数据论文被引频次绘制图表,可发现数据论文的年度被引用频次整体上呈现上升趋势,这在一定程度上代表数据论文的出版模式引起越来越多的科研人员的关注。表6对全球范围年均被引用频次最大的前30篇数据论文进行统计,可知欧美国家的数据论文占据很大部分,其出版途径中《Scientific Data》期刊占据一半左右,这在一定程度上反映《Scientific Data》期刊在科学数据出版中的重要影响力。同时,在前30的数据论文中,中国科学家作为第一作者在2020年的《Scientific Data》期刊上发表的2篇数据论文也快速获得了很高的影响力,这也反映出我国科学家参与的科学数据论文在影响力上取得的成绩。由于Data Citation Index数据库中收录数据量大,且未提供年均被引频次指标,论文对数据集中被引频次排名前25的数据集进行统计(表7),可以发现美国在数据集的共享工作中获得了很大的影响力。同时从数据集最早出现的时间看,全球最早为19世纪初,主要开始于欧美国家,文献[31]认为学术文献之间的引用存在马太效应,即文献的被引用概率与其已有的引用数据成正比,可以在一定程度上将马太效应理论用于解释欧美国家数据集影响力高的原因之一。但在表7中1984年、2017年出版的数据集均获得了较高的引用次数,可以在一定程度上反映出数据集的质量和价值也是吸引相关科研人员进行引用的重要因素。




图5 ? 全球数据论文年度数量与被引频次
表6 ? 数据论文影响力TOP 30
序号标题出版物国家(第一作者)出版年年均被引数
1Comment: The FAIR Guiding Principles for scientific data management and stewardshipScientific Data西班牙2016345.33
2MIMIC-III, a freely accessible critical care databaseScientific Data美国2016172.83
3Present and future Koppen-Geiger climate classification maps at 1-km resolutionScientific Data美国2018124.75
4Data Descriptor: Climatologies at high resolution for the earth's land surface areasScientific Data瑞士2017116.2
5Global Carbon Budget 2019Earth System Science Data英国2019105
6Version 4 of the CRU TS monthly high-resolution gridded multivariate climate datasetScientific Data英国202081.5
7Data Descriptor: Advancing The Cancer Genome Atlas glioma MRI collections with expert segmentation labels and radiomic featuresScientific Data英国201771.6
8Data Descriptor: China CO2 emission accounts 1997-2015Scientific Data英国201868.5
9Global Carbon Budget 2015Earth System Science Data英国201562
10Data Descriptor: TerraClimate, a high-resolution global dataset of monthly climate and climatic water balance from 1958-2015Scientific Data美国201852.25
11A description of the global land-surface precipitation data products of the Global Precipitation Climatology Centre with sample applications including centennial (trend) analysis from 1901-presentEarth System Science Data德国201351.11
12Global carbon budget 2014Earth System Science Data英国201548.29
13ShinyGO: a graphical gene-set enrichment tool for animals and plantsBioinformatics美国202046
141 year, 1000 km: The Oxford RobotCar datasetInternational Journal of Robotics Research英国201745.8
15Surface energies of elemental crystalsScientific Data美国201643
16The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesionsScientific Data澳大利亚201843
17Application of the ARIMA model on the COVID-2019 epidemic datasetData in Brief意大利202042
18The global carbon budget 1959-2011Earth System Science Data英国201341.22
19Global carbon budget 2013Earth System Science Data英国201439.88
20The CompTox Chemistry Dashboard: a community data resource for environmental chemistryJournal of Cheminformatics美国201737.2
21Epidemiological data from the COVID-19 outbreak, real-time case informationScientific Data中国202037
22A long-term record of blended satellite and in situ sea-surface temperature for climate monitoring, modeling and environmental studiesEarth System Science Data美国201635.17
23Bio-ORACLE v2.0: Extending marine data layers for bioclimatic modellingGlobal Ecology and Biogeography葡萄牙201832.75
24Extensive sequencing of seven human genomes to characterize benchmark reference materialsScientific Data美国201632.67
25The first high-resolution meteorological forcing dataset for land process studies over ChinaScientific Data中国202032.5
26The mPower study, Parkinson disease mobile data collected using ResearchKitScientific Data美国201631.17
27The reconstruction of 2,631 draft metagenome-assembled genomes from the global oceansScientific Data美国201831
28EDGAR v4.3.2 Global Atlas of the three major greenhouse gas emissions for the period 1970-2012Earth System Science Data意大利201930.67
29A guide for the utilization of Health Insurance Review and Assessment Service National Patient Samples.Epidemiology and health韩国201430.5
30Tracking vegetation phenology across diverse North American biomes using PhenoCam imageryScientific Data美国201830.5
备注:数据论文的被引数为2021年5月12日检索时被引数据,数据论文年均被引数=总被引数/(2021年?数据论文出版年+1)。

表7 ? 数据集影响力TOP 25
序号名称国别出版年被引频次
1National Longitudinal Study of Adolescent to Adult Health (Add Health), 1994-2008 [Public Use]美国20082918
2Framingham Cohort美国20162154
3Framingham Cohort美国20152154
4Framingham Cohort美国20152154
5Framingham Cohort美国20142154
6Framingham Cohort美国20142154
7Framingham Cohort美国20132154
8Framingham Cohort美国20142153
9Framingham Cohort美国20132152
10Framingham Cohort美国20122105
11Framingham Cohort美国20121932
12National Health and Nutrition Examination Survey III, 1988-1994美国19981595
13Framingham Cohort美国20121489
14ANES 1972 Time Series Study美国19841212
15ANES 1980 Time Series Study美国19841090
16Atherosclerosis Risk in Communities (ARIC) Cohort美国2017924
17Atherosclerosis Risk in Communities (ARIC) Cohort美国2013924
18Atherosclerosis Risk in Communities (ARIC) Cohort美国2015921
19ANES 1992 Time Series Study美国1993714
20National Survey of Families and Households, Wave 1: 1987-1988美国1994687
21Midlife in the United States (MIDUS 1), 1995-1996美国1999660
22Multi-Ethnic Study of Atherosclerosis (MESA) Cohort美国2014644
23ANES 1956 Time Series Study美国1984611
24NICHD Study of Early Child Care and Youth Development: Phase I, 1991-1994 [United States]美国2009610
25National Health and Nutrition Examination Survey (NHANES), 2003-2004美国2010585
备注:表中Framingham Cohort、Atherosclerosis Risk in Communities (ARIC) Cohort存在多条名称相同记录,主要原因为该记录存在多个不同的版本。

综上所述,具有高影响力的数据论文和数据集主要来源于欧美国家。上述数据的形成因素,如果不考虑科研人员引用行为、数据库数据收录全面性等的影响,则在某种程度上可以认为欧美发达国家科学数据共享工作的开展情况要优于国内。同时从数据论文的被引情况可知,近年来国内科学数据出版也取得了一定的影响力。


4 ? 科学数据出版态势分析及启示
4.1 ? 出版态势总结
科学数据出版是实现科研数据价值最大化的有效途径,也是推动国家科技创新的重要方式。文中对Web of Science数据库中全球范围内的数据论文及数据集出版数据进行分析,并与国内出版数据进行对比,可以获取以下认知:
(1)从时间及国家/地区维度。全球科学数据出版整体呈现出蓬勃发展的态势,数据集和数据论文的出版数量都呈现出快速增长的趋势。可以预知随着人类探索未知世界的不断深入,科研人员对科学数据出版价值的认知提升,科学数据出版在数量及规模都将保持继续上升态势。从数据论文出版时间及国家的角度,中美两国发布数据论文的起始时间基本一致,但中国每年数据论文的出版数量基本上是美国的一半左右。从数据集时间及国家的角度看,由于数据集78%的记录缺少国家信息的描述,数据虽然不能准确反映国家维度出版数据集的增长趋势,但根据从数据库中获知的国家最早出版数据集的时间可知,美国始于1837年,中国始于1989年。结合我国中国科学院于1983年开始建设的“科学数据库及其信息系统”项目,可以认为,我国科学数据集出版虽起步晚,但在数量上不断增加(基于已有包含国家字段的记录统计)。上述数据基本反映出了我国科学数据出版整体起步较晚,目前与美国之间依旧存在差距,但数量数据也反映出我国科学数据出版工作在很短时期内取得了很大的成绩。
(2)从研究方向维度。全球科学数据出版的研究方向主要集中于自然科学领域,也有研究方向属于社会科学领域,如图书情报、艺术等,但社会科学领域的数据论文、数据集在总体数量中并不占据主导地位。上述情况与自然科学和社会科学的研究方法密切相关,前者注重实验研究,后者注重理论研究。科学数据作为科学研究的重要组成部分,其出版共享工作不仅要关注于自然科学领域,还应在社会科学领域开展相关数据共享实践工作。
(3)从出版来源维度。从数据的分布看,数据论文的数量主要集中分布于个别期刊,而数据集的出版途径则相对分散。从更深层次看,可以认为数据集出版开始时间早,出版途径相对成熟并且多样化,而数据论文的出版还处于初步发展阶段,其出版途径主要集中于少数期刊,因此数据论文的出版还需探索更多的出版模式,丰富出版途径。同时,我国虽然在科学数据出版中占据重要地位,但是出版途径存在偏重于国外出版物和存储平台的问题。
(4)从影响力维度。全球范围具有高被引频次的数据论文和数据集,均主要分布在欧美国家。从整体上看,作为发展中国家的中国在数据论文和数据集的“量”上得到了巨大发展,在“质”上虽然取得了一定成就,但依旧与欧美国家存在差距。我国数据集的发布起始时间较晚,以及科研人员对数据共享认识的差异,高影响力数据集的出版相对不足。数据论文作为科学数据出版的新形式,其本质上也是数据集的另外一种体现形式,虽然中美近乎同时起步,也取得了一定进步,但还需要在“质”上引导与鼓励更多机构和科研人员的参与。

4.2 ? 启示与建议
综合全球科学数据出版的多个维度发展态势,以及结合我国科学数据出版的发展现状,论文认为我国科学数据出版应侧重于从以下几个方面进行完善并推动我国科学数据价值最大化,服务我国科学研究工作。
(1)制定规范的科学数据出版质量控制体系。从上述检索出来的数据论文、数据集数据可以发现,78%的数据集记录的国家信息存在缺失、部分国家信息直接标注为国家下的州(省)、数据论文出版途径存在全称和简称共现等问题,数据的不完整、数据歧义等问题会直接影响对科学数据出版进行深层次分析的准确性。目前,科学数据出版尚处于探索的阶段[15],我国的《科学数据管理办法》、《信息技术科学数据引用》等都为科学数据知识产权保护和共享提供了方向,但这些工作还远远不能满足科学数据出版发展的需要,未来的工作需要从质量控制的角度,以科学数据共享为目的,从更高的层面对科学数据出版的各个流程制定规范化的科学数据分类、科学数据描述、科学数据存储与发布等相关标准、体系与框架,并形成具有约束效力的文件。
(2)打造优秀科学数据出版途径。我国的科学数据出版基本上开始于上世纪80年代,虽然随着我国科技实力的不断上升,科学数据出版事业不断发展,但科学数据出版与国外相比依旧存在差距,在国内具有高国际影响力的优秀期刊和存储平台相对较少是这种差距的表现之一。针对此种问题,一是需要政府管理机构充分认识到科学数据出版对我国科研水平提升的重要价值。二是要从管理层面制定政策、投入资金,引导、鼓励国内相关研究机构、出版机构参与到科学数据出版工作中,并制定相应科学数据出版工作的考核评价体系,激励优秀科学数据出版物或出版平台的发展。三是制定法律规范要求国内出版机构和科研人员出版科学数据时,需在国内出版平台提交相关科学数据。四是将科学数据成果纳入到人才评价体系中,激励更多科研人员出版优秀科学数据。总之,需要政府、机构、科研人员等多方共同努力为国内科学数据出版提供更为优秀的科学数据来源,进而打造优秀科学数据出版途径。
(3)在全科学研究领域鼓励并引导科学数据共享发布。从文中数据可以获知,科学数据论文和数据集的出版涉及自然科学、社会科学等各个学科领域,科学数据无论是在自然科学领域,还是在社会科学领域都具有重要的价值。从此角度,无论是哪个学科领域,只要涉及到科学数据支撑的研究工作,都应该鼓励科研人员进行其研究数据的共享。在科学数据出版中,政府层面应该制定相应的激励政策鼓励各个学科领域的出版机构,积极参与到科学数据出版的工作中。各研究领域的出版机构要主动要求投稿人将论文数据进行公开共享。人才管理机构要将科研人员的科学数据成果纳入科研人员学术成果中。总之,需要从制度上、利益上吸引我国各个学科领域科研人员进行科学数据共享。
(4)引导科学数据出版从“量”到“质”的转变。在将我国与国外数据出版进行对比的过程中,可以发现我国科学数据出版在“量”上蓬勃发展,在“质”上与欧美发达国家存在差距。从表面上看是科研实力的差距,我国需要从政府管理层面制定政策、投入更多资金,提升整体科研水平,扶持激励高质量科学数据的出版。从内在深层原因看,是我国需要改革和完善科学评价体制,将科学数据出版纳入人才评价及激励机制,同时在对人才评价时还要注重科学数据产生的影响力及对相应学科领域的贡献、研究价值和意义。同时,还应意识到我国科学数据在量上虽已得到一定程度的发展,但还远远不够,还需要继续采取各种措施吸引更多科研人员贡献自己的科学数据。量变是质变的准备,我国的科学数据出版目前依旧有许多工作需要完善,如规范科学数据出版质量、培育高影响力科学数据出版平台、鼓励各学科科学数据出版等,为我国科学数据出版的质变提供前提和准备。


致 谢
本文得到中国科学院战略性先导科技专项(B类)课题(XDB38030300);国家自然科学基金专项(L1924075);科技部创新方法工作专项(2019IM020100);中科院十三五信息化专项(XXH13505, XXH13514)项目资助。


[1]
孟洁, 李晓蕾, 孔昭煜, 等. 地质科学数据的同行评议实践与思考[J]. 中国矿业, 2020, 29(5): 54–58.

+?CSCD?·?Baidu Scholar

[2]
屈宝强, 宋立荣, 王健. 开放共享视角下科学数据出版的发展趋势[J]. 中国科技期刊研究, 2019, 30(4): 329–335.

+?CSCD?·?Baidu Scholar

[3]
秦顺, 汪全莉, 邢文明. 欧美科学数据开放存取出版平台服务调研及启示[J]. 图书情报工作, 2019, 63(13): 129–136. DOI:10.13266/j.issn.0252-3116.2019.13.014.

+?CSCD?·?Baidu Scholar

[4]
姜恩波, 裴玉香. 科学文献与科学数据的融合方法与实例研究[J]. 知识管理论坛, 2019, 4(2): 69–79. DOI:10.13266/j.issn.2095-5472.2019.008.

+?CSCD?·?Baidu Scholar

[5]
中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会. 信息技术 科学数据引用: GB/T 35294—2017[S]. 北京: 中国质检出版社, 2017.

+?CSCD?·?Baidu Scholar

[6]
邢文明, 洪程. 开放为常态, 不开放为例外: 解读《科学数据管理办法》中的科学数据共享与利用[J]. 图书馆论坛, 2019, 39(1): 117–124. DOI:10.3969/j.issn.1002-1167.2019.01.015.

+?CSCD?·?Baidu Scholar

[7]
中国科学院科学数据管理与开放共享办法 [EB/OL]. [2021-1-2]. http://www.cas.cn/tz/201902/t20190220_4679797.shtml.

+?CSCD?·?Baidu Scholar

[8]
《科研数据北京宣言》正式发布 [EB/OL]. [2021-1-5]. http://www.cas.cn/yx/201911/t20191115_4723995.shtml.

+?CSCD?·?Baidu Scholar

[9]
LAWRENCE B, JONES C, MATTHEWS B, et al. Citation and peer review of data: moving towards formal data publication[J]. International Journal of Digital Curation, 2011, 6(2): 4–37. DOI:10.2218/ijdc.v6i2.205.

+?CSCD?·?Baidu Scholar

[10]
PENEV L, MIETCHEN D, CHAVAN V, et al. Pensoft data publishing policies and guidelines for biodiversity data [J]. Pensoft Publ, 2011:

+?CSCD?·?Baidu Scholar

[11]
CALLAGHAN S, DONEGAN S, PEPLER S, et al. Making data a first class scientific output: data citation and publication by NERC's environmental data centres[J]. International Journal of Digital Curation, 2012, 7(1): 107–113. DOI:10.2218/ijdc.v7i1.218.

+?CSCD?·?Baidu Scholar

[12]
刘兹恒, 涂志芳. 数据出版及其质量控制研究综述[J]. 图书馆论坛, 2020, 40: 99–107.

+?CSCD?·?Baidu Scholar

[13]
何琳, 常颖聪. 国内外科学数据出版研究进展[J]. 图书情报工作, 2014, 58(5): 104–110. DOI:10.13266/j.issn.0252-3116.2014.05.018.

+?CSCD?·?Baidu Scholar

[14]
黄国彬, 王舒, 屈亚杰. 科学数据出版模式比较研究[J]. 大学图书馆学报, 2018, 36(1): 34–40, 33. DOI:10.16603/j.issn1002-1027.2018.01.005.

+?CSCD?·?Baidu Scholar

[15]
张玲玲, 陈媛媛. 中美地理科学数据出版平台研究[J]. 数字图书馆论坛, 2020(10): 67–72. DOI:10.3772/j.issn.1673-2286.2020.10.010.

+?CSCD?·?Baidu Scholar

[16]
AUSTIN C C, BLOOM T, DALLMEIER-TIESSEN S, et al. Key components of data publishing: using current best practices to develop a reference model for data publishing[J]. International Journal on Digital Libraries, 2017, 18(2): 77–92. DOI:10.1007/s00799-016-0178-2.

+?CSCD?·?Baidu Scholar

[17]
刘闯, 马军花, Paul F.Uhlir, 等. 科学数据出版成果著录规范化研究[J]. 全球变化数据学报(中英文), 2018, 2: 123–134, 246.

+?CSCD?·?Baidu Scholar

[18]
王丹丹. 科学数据出版过程中的数据质量控制[J]. 图书情报工作, 2015, 59(23): 124–129. DOI:10.13266/j.issn.0252-3116.2015.23.018.

+?CSCD?·?Baidu Scholar

[19]
涂志芳. 科学数据出版生态系统与质量控制体系构建[J]. 图书与情报, 2019(1): 125–134. DOI:10.11968/tsyqb.1003-6938.2019017.

+?CSCD?·?Baidu Scholar

[20]
PEER L, GREEN A, STEPHENSON E. Committing to data quality review[J]. International Journal of Digital Curation, 2014, 9(1): 263–291. DOI:10.2218/ijdc.v9i1.317.

+?CSCD?·?Baidu Scholar

[21]
涂志芳, 刘兹恒. 我国多学科领域数据出版质量控制最佳实践研究[J]. 图书馆杂志, 2020, 39(9): 70–77. DOI:10.13663/j.cnki.lj.2020.09.010.

+?CSCD?·?Baidu Scholar

[22]
刘闯, 张应华. 全球变化暨地球科学数据影响力分区方法及2019年实践研究[J]. 全球变化数据学报(中英文), 2019, 3: 207–226, 317.

+?CSCD?·?Baidu Scholar

[23]
刘闯. 数据影响力积分(DIS): 数据影响力新的计量方法[J]. 全球变化数据学报(中英文), 2018, 2: 135–143, 258.

+?CSCD?·?Baidu Scholar

[24]
王丹丹. 数据论文: 数据集独立出版与共享模式研究[J]. 情报资料工作, 2015(5): 95–98. DOI:10.3969/j.issn.1002-0314.2015.05.018.

+?CSCD?·?Baidu Scholar

[25]
张丽丽. 科学数据共享治理: 模式选择与情景分析[J]. 中国图书馆学报, 2017, 43(2): 54–65. DOI:10.13530/j.cnki.jlis.170011.

+?CSCD?·?Baidu Scholar

[26]
KOSSEIM P, DOVE E S, BAGGALEY C, et al. Building a data sharing model for global genomic research[J]. Genome Biology, 2014, 15(8): 430. DOI:10.1186/s13059-014-0430-2.

+?CSCD?·?Baidu Scholar

[27]
Data Citation Index – Descriptive Document [EB/OL]. [2021-4-27]. https://clarivate.libguides.com/ld.php?content_id=45722564

+?CSCD?·?Baidu Scholar

[28]
中中科学院计算机网络信息中心, 中国科学院科学数据库办公室. 中国科学院科学数据库的建设与发展[J]. 中国基础科学, 2002, 4(4): 50–55. DOI:10.3969/j.issn.1009-2412.2002.04.012.

+?CSCD?·?Baidu Scholar

[29]
周大琼, 曹继华, 任力锋. 基因芯片数据库GEO与ArrayExpress的使用及比较分析[J]. 中国现代医学杂志, 2014, 24(12): 38–42. DOI:10.3969/j.issn.1005-8982.2014.12.009.

+?CSCD?·?Baidu Scholar

[30]
李洋, 温亮明. 我国科学数据外流:表现、问题与对策[J]. 图书馆杂志, 2019, 38(12): 72–81, 115. DOI:10.13663/j.cnki.lj.2019.12.010.

+?CSCD?·?Baidu Scholar

[31]
DE SOLLA PRICE D. A general theory of bibliometric and other cumulative advantage processes[J]. Journal of the American Society for Information Science, 1976, 27(5): 292–306. DOI:10.1002/asi.4630270505.

+?CSCD?·?Baidu Scholar



稿件与作者信息

论文引用格式
王卫军, 李成赞, 郑晓欢, 等. 全球科学数据出版发展态势分析——基于Web of Science数据库的调研[J/OL]. 中国科学数据, 2021, 6(3). (2021-09-29). DOI: 10.11922/csdata.2021.0019.zh.
王卫军WANG Weijun

本文承担工作:文献调研、数据分析及论文写作。
在读博士研究生,主要研究方向为大数据与知识图谱、科学数据管理与共享。

李成赞LI Chengzan

本文承担工作:数据分析方法的指导。
博士,高级工程师,主要研究方向为数据出版、数据开放共享、数据工程等。

郑晓欢ZHENG Xiaohuan

本文承担工作:数据分析方法的指导。
硕士,高级工程师,主要研究方向为科学数据管理、科研信息化战略等。

褚大伟CHU Dawei

本文承担工作:数据分析方法的指导。
博士,主要研究方向为网络空间安全、科研信息化、网信发展战略规划和研究等。

姜璐璐JIANGLulu

本文承担工作:数据分析方法的指导。
硕士,工程师,主要研究方向为科学数据出版、数据开放共享。

陈昕CHEN Xin

本文承担工作:数据分析方法的指导。
博士,高级工程师,主要研究方向为科学数据管理与共享、数据可视分析等。

杜一DU Yi

本文承担工作:数据分析方法的指导。
博士,副研究员,主要研究方向为大数据与知识图谱。

周园春ZHOU Yuanchun

本文承担工作:论文研究思路、分析方法的指导。
zyc@cnic.cn
博士,研究员,博士生导师。主要研究方向:大数据分析与处理。

中国科学院战略性先导科技专项(B类)课题(XDB38030300);国家自然科学基金专项(L1924075);科技部创新方法工作专项(2019IM020100);中科院十三五信息化专项(XXH13505、XXH13514)


相关话题/数据 科学 论文 工作 数据库

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于动物志的鸟类形态特征数据集
    摘要&关键词摘要:基于动物志的鸟类形态特征数据集是在对《中国动物志鸟纲第七卷》相关文字记录数字化处理后,利用专门工具对内容进行提取得到的。本数据集包含书中记录的夜鹰目、雨燕目、咬鹃目、佛法僧目、啄木鸟目(鴷形目)共计5目13科85种鸟类,其每条记录都是对各物种/亚种不同性别各发育阶段的形态、生物学、 ...
    本站小编 Free考研考试 2022-01-02
  • 中巴经济走廊泥石流分布及特征数据集
    摘要&关键词摘要:本数据集是基于历史资料收集、野外实地调查和遥感影像解译,结合数字地形图(DEM)和地质图,得到最新的中巴经济走廊范围内的泥石流编目和分布及特征信息。泥石流主要分布在中巴经济走廊的巴基斯坦北部山区和中国境内部分,范围在34.0°N–39.5°N、71.0°E–77.0°E内,包括昆仑 ...
    本站小编 Free考研考试 2022-01-02
  • 1961–2015年中巴经济走廊SPEI干旱指数数据集
    摘要&关键词摘要:干旱指数数据集是干旱研究的基础。中巴经济走廊干旱灾害发生频繁,制作该区域干旱指数数据集对干旱监测及其风险评估具有重要的科学意义。本数据集基于中巴经济走廊1961–2015年逐日降水和气温栅格数据,计算得到不同时间尺度(1–24个月)标准化降水蒸散发指数(SPEI)。验证表明本数据集 ...
    本站小编 Free考研考试 2022-01-02
  • 中巴经济走廊瓜达尔港所在莫克兰海域地质与地球物理、海洋灾害数据集
    摘要&关键词摘要:北印度洋莫克兰海域位于巴基斯坦和伊朗海岸带南缘,是“一带一路”重要港口瓜达尔港所在区域。该区域地质构造特征独特、海洋灾害频发。收集整理这一区域的基础地质地球物理数据和海洋灾害数据可以为“中巴经济走廊”的安全建设提供基础数据背景的支撑。本数据集包含该海域1992–2016年巨浪、19 ...
    本站小编 Free考研考试 2022-01-02
  • 1961–2015年中巴经济走廊极端低温事件数据集
    摘要&关键词摘要:气候变化背景下,全球极端低温事件频发,严重影响了人类社会经济的发展。准确识别极端低温事件是减轻和抵御极端低温灾害的关键。本文基于中巴经济走廊地区格点化(0.25°×0.25°)逐日最低气温数据,通过计算极端低温阈值、剔除高温地区、识别不同持续时间极端低温事件,制作了1961–201 ...
    本站小编 Free考研考试 2022-01-02
  • 1961–2019年新疆高温热浪数据集
    摘要&关键词摘要:气候变化背景下,高温热浪频繁发生,对人体健康、生态环境及社会经济造成严重影响。本文基于新疆地区105个气象站1961–2019年逐日最高气温和相对湿度数据,采用热浪指数作为判别标准,制作了新疆高温热浪数据集。本数据集包括各站点每年发生热浪的频次、累计天数及热浪初日与终日。依据现有文 ...
    本站小编 Free考研考试 2022-01-02
  • 1970–2020年中巴经济走廊典型崩塌、滑坡空间分布及属性数据集
    摘要&关键词摘要:中巴经济走廊是中国对外交流的重要陆上通道,穿越青藏高原、帕米尔高原、西昆仑山、喀喇昆仑山等构造活动强烈、冰川作用活跃的区域,走廊内崩塌、滑坡等地质灾害发育威胁该区人类活动安全及中巴公路等工程的正常建设和运行。本研究针对走廊区域(中国新疆喀什和巴基斯坦全境)的典型崩塌、滑坡灾害,通过 ...
    本站小编 Free考研考试 2022-01-02
  • 1954–2018年南小河沟流域董庄沟控制站径流泥沙观测数据集
    摘要&关键词摘要:董庄沟流域作为黄土高塬沟壑区南小河沟流域水土流失及水土保持研究的非治理对比观测沟,在1954–2018年期间开展了降水、径流、泥沙的长期观测。其中降水量数据时段序列为1954–1958年,1964–1965年,2004–2018年;径流和泥沙数据为1954–1965年,2005–2 ...
    本站小编 Free考研考试 2022-01-02
  • 1988–2018年喜马拉雅山中部龙巴萨巴冰川变化数据集
    摘要&关键词摘要:冰湖接触型冰川广泛分布于喜马拉雅山地区,受末端冰湖影响,该类冰川对气候变化的响应较其他类型的冰川更为敏感。本数据集基于冰川厚度估算数据和冰湖雷达测深数据,构建了龙巴萨巴冰川/冰湖底部地形(GeoTIFF格式,32位浮点型数据);基于LandsatTM\ETM+\OLI遥感影像,获取 ...
    本站小编 Free考研考试 2022-01-02
  • 2007–2017年青藏高原东南缘贡嘎山峨眉冷杉林土壤含水量数据集
    摘要&关键词摘要:土壤水分作为陆地生态系统水循环和植被生长发育的重要因子,在森林生态系统和水文过程等方面发挥了重要的作用。贡嘎山站是立足青藏高原东南缘及横断山区,以多层次的山地生态系统为主要研究对象的综合观测试验研究站,区域内生态系统的自然性保持完好、山地环境要素多样、生物多样性丰富,是开展山地森林 ...
    本站小编 Free考研考试 2022-01-02