Science & Technology Resource Identification Service System and its Innovative Application
LIU Jia, XIA Xiaolei, WANG Shu, WANG Lijuan, GUO Zhibing, HU Lianglin, ZHOU Yuanchun,*Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China通讯作者: 周园春(E-mail:zyc@cnic.cn)
收稿日期:2020-11-20网络出版日期:2020-12-20
Received:2020-11-20Online:2020-12-20
作者简介 About authors
刘佳,中国科学院计算机网络信息中心,大数据技术与应用发展部标识技术与应用实验室,硕士,工程师,主要从事标识解析技术研究和标准研制工作。本文主要承担科技资源标识服务系统及创新应用的管理架构及创新应用研究。
LIU Jia is an engineer at the Department of Big Data Technology and Application Development at Computer Network Information Center, Chinese Academy of Sciences. Her research interests include identification technology and standard development.In this paper she is mainly responsible for the research about the management structure and innovative applications.E-mail:
夏晓蕾,中国科学院计算机网络信息中心,大数据技术与应用发展部标识技术与应用实验室,硕士,主要从事国际标准进展研究工作。本文主要承担科学数据标识技术调研工作。
XIA Xiaolei works in the Department of Big Data Technology and Application Development at Computer Network Information Center, Chinese Academy of Sciences. Her research interest is the national standard of identification technology.In this paper she is mainly responsible for literature research and platform overview.E-mail:
王姝,中国科学院计算机网络信息中心,大数据技术与应用发展部标识技术与应用实验室,博士,助理研究员,主要从事标识解析技术研究和标准研制工作。本文主要承担科技资源标识服务系统及创新应用的技术架构研究。
WANG Shu is an assistant research fellow at the Department of Big Data Technology and Application Development at Computer Network Information Center, Chinese Academy of Sciences. Her research interests include identification technology and standard development. In this paper she is mainly responsible for the research about the technical structure.E-mail:
王丽娟,中国科学院计算机网络信息中心,大数据技术与应用发展部标识技术与应用实验室,硕士,研究实习员,主要从事标识解析技术研究及平台产品设计工作。本文主要承担科技资源标识服务系统及创新应用的应用架构研究。
WANG Lijuan is a research assistant fellow at the Department of Big Data Technology and Application Development at Computer Network Information Center, Chinese Academy of Sciences. Her research interests include identification technology and platform product design. In this paper she is mainly responsible for the application architecture research.E-mail:
郭志斌,中国科学院计算机网络信息中心,大数据技术与应用发展部标识技术与应用实验室,高级工程师,主要从事区块链,标识技术设计与研发工作。本文主要承担科技资源标识服务系统及创新应用的研发实现。
GUO Zhibin is a senior engineer at the Department of Big Data Technology and Application Development at Computer Network Information Center, Chinese Academy of Sciences. He is mainly engaged in the design and development of blockchain and identification technology. In this paper he is mainly responsible for the R&D implemen-tation.E-mail:
胡良霖,中国科学院计算机网络信息中心,研究员,国家基础学科公共科学数据中心主任,目前主要从事科学大数据管理、开放共享、应用服务等方面研究工作。本文主要承担科技资源标识服务系统及创新应用的研发实现。
HU Lianglin is a Professor at Computer Network Information Center of the CAS and the Director of National Basic Science Data Center. His recent research interest areas follow: scientific big data management, open sharing and application services.In this paper he is mainly responsible for the R&D implemen-tation.E-mail:
周园春,中国科学院计算机网络信息中心,博士,研究员,博士生导师,中科院特聘研究员,中心学位评定委员会主席,大数据技术与应用发展部主任,大数据分析与计算技术国家地方联合工程实验室秘书长,中科院信息化专项科学大数据工程负责人。发表SCI/EI收录论文90多篇。主要研究方向为云计算、大数据分析与处理。 本文主要承担工作为基于科技资源标识服务的科学数据标识应用整体架构设计。
ZHOU Yuanchun is the research fellow and Ph.D. supervisor of Computer Network Information Center of the CAS, the Director of the Department of Big Data Technology and Application Development, and the Chairman of the Degree Evaluation Committee in Computer Network Information Center, Chinese Academy of Sciences. He is the head of the Science Big Data Project of the Chinese Academy of Sciences. His research interests include cloud computing and big data analysis and processing. In this paper he is mainly responsible for the overall framework design.E-mail:
摘要
【目的】目前我国正处于建设科技强国与创新发展的关键时期,通过建设科技资源标识服务平台,加强科技资源管理,实现科技资源的开放共享是当前重要课题。【文献范围】 文章重点研究了国内外主流标识技术与应用范围。【方法】本文基于分层分级的标识管理体系架构,阐述了构建科技资源标识服务系统的关键技术和系统工具,给出了一种面向科技资源管理和开放共享的标识服务系统。【结果】通过构建科技资源标识服务系统,促进科技资源信息互联互通,推动科技资源开放共享,为科技资源可定位、可追溯、可引用、可统计与可评价提供系统基础。【局限】 目前系统主要对数据进行了基础显性关联分析,后续将结合知识图谱技术与区块链技术,实现可信标识链的建立与数据隐性关联的探索与可视化分析。【结论】科技资源标识服务系统在提升科技资源管理规范化及标准化能力的同时,稳步提升科技资源数据开放与共享能力,服务国家科技创新需要。
关键词:
Abstract
[Objective] China is undergoing a critical time period of building an innovative and powerful scientific and technological country. It is an important to strengthen the management of scientific and technology resources and realize the open-sharing of scientific and technological resource data by building a service platform for identifying scientific and technology resources. [Scope of the literature] This article focuses on the research of identification protocols and their applications in China and internationally. [Methods] Based on the hierarchical identification management architecture, this paper expounds the key technologies and system tools for constructing the identification service system for science and technology resources and presents an identification service system for managing and open-sharing science and technology resources. [Results] Through the construction of a science and technology resource identification service system, the information connectivity and open-sharing capacity of science and technology resources are improved. Besides, the system builds up the basis for locating, tracing, referencing, statistical analyzing, and evaluating science and technology resources. [Limitations] At present, the system mainly conducts basic explicit correlation analysis of data. In the future, by using the knowledge graph and blockchain, the platform will realize visual analysis of establishment of the trusted identification chain and exploration of implicit correlation of data. [Conclusions] Science and technology resource identification service system not only improves the standardization of science and technology resource management, but also improves the open-sharing capability of science and technology resource data to serve the needs of national science and technology innovation.
Keywords:
PDF (9655KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
刘佳, 夏晓蕾, 王姝, 王丽娟, 郭志斌, 胡良霖, 周园春. 科技资源标识服务系统及创新应用[J]. 数据与计算发展前沿, 2020, 2(6): 62-73 doi:10.11871/jfdc.issn.2096-742X.2020.06.007
LIU Jia, XIA Xiaolei, WANG Shu, WANG Lijuan, GUO Zhibing, HU Lianglin, ZHOU Yuanchun.
引 言
2014年,习近平总书记主持召开中央全面深化改革领导小组第六次会议指出,统筹提高当前科技资源使用效率,逐步健全国家创新体系。此后,如何在科技资源可以有效利用的同时保证其开发和流动性成为当前重要问题[1,2]。然而长期以来,科技资源管理存在着开发利用资源效率低下,资源共享存在壁垒,安全防护存在风险等问题。尽管各学科间存在领域交叉与重合,但受限于时间与空间上的天然隔离,同时缺乏完善的顶层设计与驱动机制,统筹管理能力相对薄弱,很难形成长效的数据交流与共享机制[3,4,5]。
为有效解决问题,推进实施创新驱动发展战略,国家先后出台了国家标准《GB/T 32843-2016科技资源标识》[6]、《GB∕T 35294-2017 信息技术 科学数据引用》[7]与政策文件《国家科技资源共享服务平台管理办法》。从制度层面上,规范了国家科技资源共享服务平台管理,推进科技资源向社会开放共享,提高资源利用效率[8,9]。
在技术层面,通过引入数据资源标识服务,结合标识体系的异构解析技术,实现在不破坏已有信息基础设施的基础上,有效解决各专业及行业间的“数据烟囱”、“数据壁垒”问题,同时借助成熟的平台服务架构,逐步提升科技资源的管理效果。
因此,本文将通过广泛分析主流标识技术,结合科技资源管理与开放共享应用需求,基于CSTR标识技术,搭建科技资源标识管理服务系统,在各专业、各行业领域展开应用。
1 标识技术分析
1.1 国际主流标识技术
目前,用于科技资源管理的标识服务国际主流技术主要包括Handle标识系统(Handle 10根的DOI,Handle 21根的PID)、国际标准关联标识符ISLI(International Standard Link Identifier)和CSTR等。(2)PID
PID是英文“persistent identifier”,即永久标识符的缩写,也可写为PI。它是由EUDAT(欧洲数据基础设施)中多家欧洲著名研究机构联合DataCite[11],在Handle系统的基础上针对科研数据生命周期中对数据集的永久性的标识与定位需求所产生的标识系统,使用“21”开头区分。目前由Epic(欧洲永久标识联盟)负责进行统一管理。
(3)ISLI
ISLI是在2015年5月发布的由国际标准化组织(ISO)指定的国际标准《ISO17316:2015 信息与文献——国际标准关联标识符(ISLI)》中提及的国际标准关联标识符的英文首字符缩写。ISLI主要针对信息与文献领域中的实体,例如承载或附有信息的音视频文件、数据集、人等。目前由国际标准化组织(ISO)进行统一管理,由国际信息内容产业协会(ICIA)进行注册批准实际操作。
(4)CSTR
CSTR是中国国家科技基础条件平台中心、中国标准化研究院、北京航空航天大学等多家国内学术机构于2017发布的国家标准《GB/T 32843-2016科技资源标识》中提出的,针对国内支撑科技创新和经济社会发展的科技基础条件与技术创新资源的唯一标识符。其面向对象包括大型科学仪器设备、实验基地、自然资源与科技成果多种类型资源。CSTR标识目前由国家科技行政主管机构指定的统一管理机构进行注册管理。
1.2 标识技术体系特征分析
Table 1表1
表1不同标识体系的特点
Table 1
标识体系 | 注册管理机构 | 对应标准 | 应用领域 | 支撑平台 |
---|---|---|---|---|
DOI | International DOI Foundation (IDF) | 《ISO 26324:2012信息和文献--数字对象标识符系统》 | 期刊、文献 | 万方、知网、DataCite、Crossref |
PID | Epic | 无 | 科学数据 | PID21数据标识服务平台 |
ISLI | 国际信息内容产业协会(ICIA) | 《ISO17316:2015 信息与文献——国际标准关联标识符(ISLI)》 | 图书、出版物 | 中国ISLI注册中心 |
CSTR | 国家科技基础条件平台中心 | 《GB/T 32843-2016科技资源标识》 | 大型科学仪器设备、研究实验基地、自然科技资源、科学数据等 | 科技资源标识服务平台 |
新窗口打开|下载CSV
为了提供CSTR标识注册解析服务,亟需研发建设一套我国自主可控的标识服务支撑系统,促进科技资源的管理和应用。
2 科技资源标识服务系统架构
2.1 管理体系架构
科技资源标识服务系统管理架构如图1所示,分为科技资源标识主管机构、科技资源标识代理机构、科技资源标识注册机构以及科技资源提交机构四个角色。图1
新窗口打开|下载原图ZIP|生成PPT图1管理体系架构
Fig.1Management architecture
标识主管机构负责标识工作的统筹规划、组织协调、监督检查、制定相关的标准规范和规章制度,指导和评价科技资源标识工作,负责科技资源标识信息监管,持续推动科技资源开放共享;负责科技资源标识国家节点建设运行;负责受理和审核标识代理机构、标识注册机构申请,为标识代理机构、标识注册机构分配机构代码,对资源提交机构进行备案。
标识代理机构主要负责科技资源标识注册解析信息服务,是标识服务节点的建设、运行和维护机构。标识代理机构负责代理范围内标识注册、解析、管理、技术支持以及标识相关领域宣传推广等工作。
标识注册机构是经标识主管机构审核、批准,负责科技资源标识注册申请及相应科技资源质量审核、科技资源提交机构审核备案与管理,是标识注册节点的建设、运行和维护机构。标识注册机构需通过标识代理机构向标识主管机构提交申请,经批准后成为标识注册机构,每个标识注册机构具有唯一代码。
资源提交机构是指按科技资源标识管理相关规定和标识注册机构相关要求向标识注册机构提交科技资源标识申请和科技资源标识元数据的机构。资源提交机构应选择相关的标识注册机构进行科技资源标识申请,同一科技资源只能在一个标识注册机构进行标识注册。
2.2 技术体系架构
在技术体系架构上,服务系统可分为国家节点、服务节点和注册节点,如图2所示。国家节点是标识体系顶级节点,负责与其他标识体系节点互联互通以及与服务节点对接,具体包括服务节点接入、标识统计备案、标识认证、标识同步等。服务节点负责与国家节点和注册节点对接,具体包括标识校验、标识注册、标识解析、标识存储维护、标识备案同步等。注册节点负责与服务节点对接,具体包括标识注册申请、标识元数据维护、标识权限设置等。图2
新窗口打开|下载原图ZIP|生成PPT图2技术体系架构
Fig.2Technical architecture
技术研究方面,标识主管机构负责科技资源标识管理体系、标准体系以及标识业务顶层设计规划;标识代理机构负责科技资源标识技术体系研究与系统研制;标识注册机构负责科技资源标识应用与推广;资源提交机构负责参与各项技术研究及标准制定工作。
3 系统功能
3.1 系统应用架构
平台应用体系架构如图3所示,平台依托开放服务对标识进行上链存储,实现标识可信与追溯功能。在此基础上,通过自研的CSTR节点服务技术对标识进行存储、解析和管理,并设置镜像结构,保证标识能够全天候正常生成与解析。图3
新窗口打开|下载原图ZIP|生成PPT图3应用体系架构
Fig.3Application architecture
平台具有元数据库和业务数据库,对元数据及业务数据进行存储。并根据需求建立主数据模型,管理元数据、标识索引以及建立标识日志,支撑平台全文检索与元数据查询需求。
为保证平台使用效果,平台微服务不仅提供服务监控告警、日志统计分析、消息队列、缓存服务、检索服务、服务注册发现以及服务配置中心等平台基础功能,为满足科技资源标识使用需求,平台还提供了标识分配、标识注册、标识解析、标识管理和标识图谱等标识辅助功能,方便用户根据自身需求进行使用。为保证用户使用效果,平台提供包括手机、电脑及网页端等多种终端类型,以满足用户对科技资源标识的注册使用需求。
3.2 前缀申请
平台提供CSTR前缀申请功能,通过填写申请机构的类型、基本信息及联系人信息并经过平台审核人员审核后,获取平台的账户和对应密码。登录后在个人中心查看前缀申请审核进度,功能位置如图4所示。图4
新窗口打开|下载原图ZIP|生成PPT图4前缀申请功能位置
Fig.4Prefixes request function locations
前缀申请由中国科学院计算机网络信息中心院总中心审核,报中国科学院计算机网络信息中心院网信办备案。审核进度展示如图5所示,用户可随时在平台登录后到个人中心中对进度进行查看。
图5
新窗口打开|下载原图ZIP|生成PPT图5前缀申请进度展示图
Fig.5Progress diagram of Prefix application
3.3 标识注册
前缀申请成功后,用户可以登录平台,登录界面如图6所示。平台中提供在线注册、批量注册及接口注册三种方式进行注册,用户可以通过自身需求使用对应工具。下面将对三种注册方式进行分别说明。图6
新窗口打开|下载原图ZIP|生成PPT图6平台登录界面
Fig.6Platform login page
3.3.1 在线注册
在线注册主要针对标识注册量较小的机构,界面如图7所示。在上方菜单中选择在线注册后,通过填写线上表单,对科技资源进行注册。
图7
新窗口打开|下载原图ZIP|生成PPT图7在线注册界面
Fig.7Online registration page
3.3.2 批量注册
用户可以通过系统提供的元数据模板,对需要注册的科技资源进行整理填写并根据已设置的规则批量注册标识,界面如图8所示。
图8
新窗口打开|下载原图ZIP|生成PPT图8批量注册界面
Fig.8Batch registration page
批量注册操作方法如图9所示。首先需要下载模板上传文件,按照模板对数据进行上报,第二步是点击标识生成,按照已设规则生成标识,最后用户可以根据自身需求选择是否进行导出。
图9
新窗口打开|下载原图ZIP|生成PPT图9标识批量注册流程图
Fig.9Batch identifier registration flowchart
批量注册主要针对需要进行批量元数据注册,同时缺少平台接口开发能力的机构。通过平台的批量注册功能,按照excel格式模板,实现快速对批量科技资源的标识注册。
3.3.3 接口注册
接口注册主要提供给具有开发能力,需要进行大量注册的组织机构使用,界面如图10所示。用户在申请密钥后下载SDK,通过事前定义的数据传输规则,连接平台对应API接口进行数据上传与注册。
图10
新窗口打开|下载原图ZIP|生成PPT图10接口注册界面
Fig.10Interface registration page
3.4 标识管理
平台在个人中心界面中提供标识管理功能,通过对应界面及表单的汇总、分析与展示,方便用户系统了解注册标识的相关情况。查询标识界面如图11所示,界面系统展示了用户注册科技资源分配的标识、对应资源名称及发布时间。同时左侧提供了详情与修改按钮,用户可通过详情按钮,对上传数据显示信息进行查看,也可通过修改按钮对上报科技资源数据进行修改。
图11
新窗口打开|下载原图ZIP|生成PPT图11标识信息界面
Fig.11Identifier information page
注册标识信息展示界面如图12所示,展示信息包括数据注册CSTR标识编号、数据名称、发布日期及机构、数据描述等信息。
图12
新窗口打开|下载原图ZIP|生成PPT图12标识详细信息展示界面
Fig.12Identifier corresponding details page
同时,考虑到科技资源修改的需求,平台提供标识修改功能,方便用户对数据的资源链接地址进行更新和替换。
3.5 标识浏览
平台提供标识浏览功能,通过数据关键字、对应CSTR标识等多种方式检索科技资源标识服务平台注册的科学数据元数据信息,界面如图13所示,界面中同时提供使用服务机构、科技资源标识类型、标识注册日期等选项进行分类筛选浏览功能。图13
新窗口打开|下载原图ZIP|生成PPT图13标识检索界面
Fig.13Identity search page
3.6 标识解析
平台提供标识解析功能,用户可以通过科技资源标识解析工具进行CSTR标识解析。在数据搜索框中输入CSTR标识,可以获得CSTR标识对应的科学数据信息,解析初始界面如图14所示。图14
新窗口打开|下载原图ZIP|生成PPT图14标识解析初始界面
Fig.14Identity resolution initial page
例如输入标识号为CSTR:31106.11.SCIENCEDB.P00001.00001的CSTR标识进行解析后,系统将跳转到对应科技资源的详细信息展示界面。
4 科技资源标识服务系统应用
4.1 野外台站管理
平台针对当前研究院所中野外台站使用学科交叉、资源共享困难、数据资源存在壁垒的现状,通过使用CSTR标识技术对各个野外台站进行标识注册的方式,对全国台站数量、位置、关联数据源等多个重要指标进行记录与共享,方便不同专业不同行业的科技研究人员利用现有台站资源,避免重复建设与资源浪费,提升资源使用效果。4.2 知识图谱
平台依据在标识注册过程中对科技资源数据的清洗、过滤、分类、汇总,从中提取到数据的关键属性信息[12],通过对多个数据关键信息的比对、匹配实现对数据一定程度上的数据融合,并通过数据的二次清洗与校验,逐步形成基于科学数据资源的知识图谱,直观地了解文件、数据集、音像图像资源、乃至研究人员、基金会之间的关联。如图15,以国家生态研究网络鼎湖山台站为例,对样地、设施、设备、数据集、样品及标本信息进行汇总和二次清洗后绘制的平台知识图谱图。图中,清晰地展示出台站下属的12处样地,并由样地延展开来的40余个设备、设施,通过设备设施进行研究出的数据集、样品及标本。通过可视化的台站、样地、数据集及样品关联关系展现,帮助各行业研究人员更直观地了解研究成果所属结构,并提供切实有效的参考。
图15
新窗口打开|下载原图ZIP|生成PPT图15平台知识图谱效果示意图
Fig.15Schematic diagram of platform Knowledge graph
4.3 标识追溯
在科技资源关联信息的上报与管理过程中,采用标识的持久性可用与全球唯一的特点,可以在建立完整数据链后实现针对科技资源的标识追溯,结果如图16所示。以CSTR标识为21.86103.1/FDD512004的数据集为例,通过填报的数据集关系可以看出,数据集内容采集自鼎湖山自动气象观测站,观测站所属区域为鼎湖山站气象观测场,从图中可以看出观测场属于广东鼎湖山森林生态系统国家野外科学观测研究站。
图16
新窗口打开|下载原图ZIP|生成PPT图16平台标识追溯效果示意图
Fig.16Schematic diagram of platform identification traceability effect
通过标识追溯功能,研究人员可以快速了解该数据集的来源、所属机构等关联上下游相关信息,帮助研究人员更直观地了解科技资源的信息作用,方便后续对资源使用。
4.4 标识区块链
结合标识具有唯一性与持久链接的特性,通过区块链技术可以实现对科技资源的记录[13]。服务系统中区块链结构如图17所示。图17
新窗口打开|下载原图ZIP|生成PPT图17平台标识区块链效果示意图
Fig.17Schematic diagram of platform blockchain identification effect
标识区块链体系包含数据中心、管理机构、期刊发布机构等多个科技资源生产、发布和存储等全生命周期重要环节。通过标识上链,在保证数据仍在原有科学数据中心的情况下实现科学数据的安全共享、一致性验证、数据追溯、版本管理与数据确权、使用记录与贡献量统计。
5 思考与展望
我国正处于建设科技强国与实施创新驱动发展战略的重要关键时期,站在百年未有之大变局中的重要十字路口,在政策与科技的引领下,稳步提升我国科技资源管理能力,避免资源浪费和重复建设,这将成为加强我国科技创新能力,保障国家安全的重要方式和手段。目前,科技资源标识服务系统已研发完成。当前系统可以提供高性能的并发标识注册接口,单节点TPS大于1万,标识注册延时小于1秒;提供高性能的标识解析接口,单节点QPS大于10万,查询延时小于1秒。
随着系统功能和性能的逐步完善和提升,通过平台将构建以CSTR标识技术为基础的统一、开放、规范的科技资源标识体系。逐步实现以现代信息技术为手段,以科技资源责任主体和分层管理为核心,标识管理与资源开放相衔接的科技资源标识体系,实现科技资源引用、关联、统计、评价等科技资源开放共享服务的全过程管理。
未来,系统将通过知识图谱的方式,针对科技资源间的关系进行汇总分析,并由显性的研究人员与使用资料间的关系逐步提升到资源与资源间的隐性关系挖掘,有助于推动科学数据的开放共享,对于服务科技创新、发展共享经济等多个方面具有重要作用。
利益冲突声明
所有作者声明不存在利益冲突关系。参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
[J]. ,
[本文引用: 1]
[M].
[本文引用: 1]
[J]. , 2009(
[本文引用: 1]
[J]. , 2010(
[本文引用: 1]
[J]. , 2012(
[本文引用: 1]
[S].
[本文引用: 1]
[S].
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]