Research and Practice on ARP Data Governance System
SUN Jianying,*Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China通讯作者: *孙健英(E-mail:jysun@cnic.cn)
收稿日期:2021-03-1网络出版日期:2021-04-20
Received:2021-03-1Online:2021-04-20
作者简介 About authors
孙健英,中国科学院计算机网络信息中心,高级工程师,硕士研究生导师,管理信息化部副主任,主要研究方向为智慧管理、软件工程,当前主要从事新一代ARP管理业务研究。
独立编写本文。
SUN Jianying is currently the senior engineer, master super-visor, and the deputy Director of Management informatization Deparment, Computer Network Information Center, Chinese Academy of Sciences. Her research interests cover intelligent management and software engineering.
She accomplished the paper independently.
E-mail:
摘要
【目的】信息化项目的显著成果是形成了大量数据资源,提高数据质量,充分挖掘数据资源,辅助管理决策,推动数据赋能是信息化纵深发展的目标。【背景】ARP(Academia Resource Planning)系统是中国科学院院属单位日常科研管理的工作平台,系统中存储了十余年的管理数据,但由于数据质量问题制约了数据分析的精准性,如何提升数据质量已成为应用的研究热点。【方法】本文研究管理信息化应用的数据质量管理标准及评估流程,以ISO/IEC25024数据质量模型为依据,结合中国科学院科研管理信息化特点,利用灰色关联度和相关系数建立指标排序模型,实现指标关联分析和主因子判定,并按照AHP层次分析法得出系统数据质量评价模型。【结果】依据本文所提出的数据质量评估模型,对ARP系统数据质量进行测评并进行可视化展示。结果显示,治理后数据基本实现智能决策辅助支持。数据质量在完整性方面得到大幅度提升,但在数据正确性方面还需改善。【结论】构建场景化、系统性的评估指标体系,可有效促进数据质量的提升,并以从用户视角建立的评估模型使数据治理定量评估更加科学。
关键词:
Abstract
[Objective] The most valuable result of the informatization project is the massive data resources accumulated. Improving the quality of data, exploring research data resources, assisting management decisions and promoting data empowerment are the purpose of further development in informatization. [Context] ARP (Academia Resource Planning) is the working platform for daily scientific research management of units affiliated to the Chinese Academy of Sciences. More than ten years of management data is stored in the system but the quality of data restricts the accuracy of data analysis. Thus, how to improve data quality has become a hot topic. [Methods] Based on the ISO/IEC25024 data quality model, this paper focuses on data quality management standards and evaluation processes for information management applications. Combined with the characteristics of scientific research management informatization of the Chinese Academy of Sciences, this paper established an index ranking model by using grey relational degree and correlation coefficient. [Results] The results of data quality measurement and visualization of ARP system based on the proposed data quality assessment model show that the data after governance can basically satisfy the needs of intelligent decision support. Data quality has been greatly improved in terms of completeness, but more improvement is required in terms of data accuracy. [Conclusions] A scenario-based and systematic evaluation index system can improve data quality. Besides, the quantitative assessment of data governance could be more rational and effective if the evaluation model is built from the perspective of users.
Keywords:
PDF (8536KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
孙健英. ARP数据治理体系研究与实践. 数据与计算发展前沿[J], 2021, 3(2): 68-76 doi:10.11871/jfdc.issn.2096-742X.2021.02.008
SUN Jianying.
引言
中国科学院资源规划(Academia Resource Planning,ARP)[1]项目于2002年经中国科学院党组批准立项建设至今,已持续了四个五年计划。当前,在该项目建立的ARP系统中已积累了院属各单位十多年的科研管理业务数据,累计存储超过16亿条记录。为了更好地发挥ARP应用效益,为管理决策提供辅助支撑,需要充分利用ARP数据构建大数据分析模型并提供智能化分析服务。但在实际应用过程中,ARP数据在及时性、完整性及准确性方面还需要进一步提升,以提高数据分析的精准性。如何提升数据质量,为管理决策提供坚实基础是目前急需解决的关键问题,本文结合科研管理信息化实战应用情况,提出了科研管理数据治理体系构建思路和具体实践。1 ARP数据质量提升解决方案
ARP系统以科研项目管理为核心,业务数据按照所属模块进行分类管理,具体包括人力资源、科研项目、综合财务、科研条件、国际合作以及电子公文管理六个模块。ARP系统的建设,实现了对全院人力、资金、科研基础条件等资源配置及相关管理流程的整合与优化。2017年,新一代ARP建设和部署实施工作启动,截至2020年底,已完成全院133家上线单位的部署实施工作,实施切换率为100%。参与ARP组织协调的各级领导(处级以上)达到500余人,各应用系统相关岗位的关键用户超过30,000人,使用系统的最终用户超过80,000人。新一代ARP新系统运行基本稳定,系统累计访问人次超1,000万次,已经成为院、所各单位日常管理的工作平台。ARP数据质量提升工作是一个不断深入、迭代演进的过程。借鉴知识增长模式,数据质量提升工作需要坚持以问题为导向,经过分析问题、解决问题、结果评价与再分析的复杂过程,从而进入更深层次的问题剖析,使ARP系统数据质量步入持续改善的健康发展道路。首先从目前ARP系统数据质量的现状分析入手,对产生的原因以及存在的问题进行全面剖析。
ARP数据的产生来自于院属单位日常的业务处理,一般情况下数据采集维护人员根据院、所两级业务需要进行数据录入。经数据抽取形成的数据资源池是为管理决策提供支撑的基础。而目前院属单位数据维护情况各异,导致数据资源池中的数据在完整性、准确性以及及时性上都需要进一步提升,影响了辅助决策的成效。究其原因,主要体现在以下四个方面:
(1)管理者对数据资源整体服务能力缺乏了解
基于信息资源池支撑的院宏观数据分析服务的对象是院机关各部门。由于数据产生的源头是院属单位,也由于缺乏数据资产视图的支持,导致院层面无法便捷地了解ARP系统数据资源的整体服务能力。
(2)ARP系统应用和质量标准亟待出台
ARP所级核心应用系统是面向院属单位提供的标准版功能,但由于缺乏统一的应用规范和质量要求,导致各单位通过系统产生的数据在完整性、及时性和正确性方面存在差异。
(3)ARP数据维护质量评价的方法和手段有待完善
所级数据维护人员目前无法准确把握数据质量是否存在问题以及如何提升才能提高质量,给管理决策奠定基础。导致各所系统应用情况存在较大差异,系统数据维护只能依赖于操作人的自觉性。
(4)决策者缺乏管理工具推进数据质量提升工作
决策者缺乏信息化平台和工具的支撑,无法清晰地了解数据现状、辅助决策结果,无从判断数据质量差异映射出的管理问题,无从考量院属单位的应用水平,从而无法使用合理的管理方式推进数据质量提升工作。
为解决上述数据应用过程中的问题,全面提升数据质量工作,切实为院属单位“数据减负”,推动科研管理数据服务能力和科教发展态势感知能力的提升,提出了中国科学院ARP数据治理体系的总体架构,如图1所示。
图1
新窗口打开|下载原图ZIP|生成PPT图1ARP数据治理体系总体框架
Fig.1Framework of the ARP data governance system
该架构是在加强基础数据管理的基础上,结合管理需要制定数据标准,利用信息技术提升数据质量,最终使数据变成管理工具,通过数据挖掘、可视化等技术辅助科研管理决策。图1左侧部分是从管理角度提出的四项举措,具体包括:(1)通过ARP可视化数据资产服务,全面了解管理领域范围内的数据资源情况;(2)根据业务要求,制定院属单位ARP系统应用规范,规范业务流程、建立数据标准、权限标准,统一业务处理过程;(3)建立数据质量评价体系[2],确定数据质量规范,制定各业务模块的数据质量[3]评价模型并形成评估报告;(4)加强数据分析服务,通过年终统计、专项报告以及看板服务,加强ARP数据利用,建立考评机制,自上而下推动数据质量的提升。
基于上述管理需求驱动了ARP数据治理平台的构建,如图2所示。
图2
新窗口打开|下载原图ZIP|生成PPT图2ARP数据治理体系平台功能框架
Fig.2Functional framework of ARP data governance system platform
该平台包括元数据管理、主数据管理、数据资产管理、数据标准管理、数据质量管理与数据应用服务模块。(1)元数据管理模块提供元数据采集管理,可自动抽取数据存储信息和血缘关系;提供数据地图服务,在全局范围内对元数据使用关键字进行模糊查询检索;提供全链分析服务,为元数据管理提供自动化、体系化和规范化的管理工具;(2)主数据管理模块提供主数据自动抓取、收集和分配集中管理,灵活配置复杂流程。可以对主数据的识别工作更准确高效,减少主数据筛检和收集的人工成本,随时调整符合业务实际情况的主数据管理方式;(3)数据资产管理将数据资产可视化,进行资产查询、检索、提供快速定位服务等,从而全面提升数据资产服务的能力;(4)数据标准管理提供自动识别数据源、实时同步元数据、多版本映射和全流程标准管理体系。通过标准定义、版本管理、评估检测与标准实施模块让数据规范管理更加全面、智能;(5)数据质量管理通过规则管理、模型管理提供常规的质量校验和自定规则模板;形成数据方案,用多种统计维度和图表形式实时展示数据质量的动态情况,生成数据报告。让数据质量规则与控制更加灵活和生动,数据质量一目了然;(6)最终通过上述数据管理模块提供满足不同应用场景的数据应用服务,如数据质量报告、看板服务、数据报告、态势感知等服务。
2 ARP数据治理体系关键技术研究
2.1 元数据管理
ARP数据架构整体设计按照数据属性进行分类存储,数据类型分为主数据、业务数据和参考数据。主数据管理是经实例化的关键数据,表现为用户使用ARP系统应用的日常业务活动(事务处理)相对静态的关键信息。只有当业务策略、组织结构或处理规则发生根本性变化时才会更新这些信息。主数据还包括在组织内共享的通用信息,例如机构、部门、职务分类、岗位等级、人员基本信息等。使用主数据可减少数据冗余、维护数据完整性并确保用户能够访问同一基本信息。业务数据表现为用户使用ARP系统应用的日常业务活动(事务处理)的动态信息,其更新频率要高于主数据,如申请信息、审批信息等。参考数据由数据字典组成,带有说明字段,不需要经常更新,如国籍、任务来源等。如图3所示。图3
新窗口打开|下载原图ZIP|生成PPT图3ARP系统数据分类和管理
Fig.3Classification and management of ARP system data
ARP元数据是指ARP所产生的有关数据定义、目标定义、转换规则等相关的关键数据,包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述。系统中共定义了1,648个业务数据结构,38,314个数据项。
2.2 数据质量分析模型
ISO/IEC 25024[4]数据质量标准提出了影响数据质量的15个指标,如图4所示。图4
新窗口打开|下载原图ZIP|生成PPT图4ISO/IEC 25024数据质量标准
Fig.4ISO/IEC 25024 data quality standard
在准确性、完整性、一致性、可信度、时效性、易访问性、依从性、保密性、效率性、精准性、易理解性、可用性、可移植性、易恢复性、可追溯性质量指标集中结合ARP系统数据质量情况,通过灰色关联分析法选取与数据质量关联度较大的指标构建分析模型。
灰色系统理论[5]是通过灰色关联度次序来说明各因素之间关系的大小、强弱和顺序的一种方法。为了科学、客观地选取分析指标,本文从上线单位按照六大业务模块、年度采取专家打分的方法进行基础数据质量数据采集。
灰色关联分析法[6]是基于灰色系统理论用于计算评分值与“参考值”的相似程度,进而可以针对评价指标项进行评价的算法。评价步骤首先确定“参考值”(母序列),针对数据进行无量纲化处理,然后计算关联系数,最后结合关联系数值计算得到关联度。关联度实质上是通过曲线间几何形状的差值大小作为关联度的衡量尺度。假设一个参考数列X0有若干个比较数列X1, X2,…, Xn,那么这些数列与参考数列在曲线中各点的关联系数ξ(Xi)可用下列公式计算得出:其中 ρ为分辨系数,一般在0~1之间,通常取0.5。Δmin是两级最小差,Δmax记为两级最大差。Δoi(k)为各比较数列Xi曲线上的每一个点与参考数列X0曲线上的每一个点的绝对差值。
因此关联系数[7]ξ(Xi)计算公式可以简化如下:
由于关联系数的自身特性,比较数列与参考数列在各时刻关联程度值不同,就导致信息分散无法简单清晰地进行整体比较与分析。因此需要将这些关联系数转化为相对集中的值,即用其平均值作为比较数列与参考数列间关联程度的数量表示。因此关联度公式如下:
基于灰色关联度分析模型,按照分辨系数通常取值0.5计算,结合关联系数计算公式得出关联系数值,并根据关联系数值,最终计算出关联度值用于评价判断。实验结果如图5所示。
图5
新窗口打开|下载原图ZIP|生成PPT图5ARP数据质量指标关联度分析
Fig.5Correlation analysis of ARP data quality index
使用关联度值针对15个评价对象指标进行评价排序,关联度值越大代表其与“参考值”之间的相关性越强,也即意味着这些评价指标对数据质量影响越大。从上表可以看出:针对本次15个数据质量评价项,完整性的综合评价最高(关联度为:0.923),其次是时效性(关联度为:0.834)、准确性(关联度为0.828)。
2.3 数据质量评价模型
数据质量评价模型对每类业务的关键数据从完整性、准确性和时效性三个质量指标结合实际业务由管理专家根据管理要求确定质量规范,即质量控制因子。通过邀请各管理领域专家采用专家打分方式得到系统质量因子,通过AHP(Analytic Hierarchy Process)层次分析法[8]对专家打分的质量因子权重计算。AHP层次分析法用于计算权重,并且需要进行一致性检验;首先要逐一描述各项指标所得权重情况,然后使用和积法计算方法进行AHP层次分析法研究[9]。
下面以科研条件数据质量评价因子为例,基于数据质量规范确定评价项目和评价因子,给出初步标准分数建议,专家根据经验对指标权重进行调整。通过专家打分数据形成AHP层次分析判断矩阵。针对28项质量因子、28阶判断矩阵进行AHP层次法研究(计算方法为:和积法),分析得到特征向量及对应的权重值。除此之外,结合特征向量可计算出最大特征根(28.000),然后根据最大特征根值计算得到CI值(0.000)【CI=(最大特征根-n)/(n-1)】,CI值用于下述的一致性检验使用。具体计算过程详见图6。
图6
新窗口打开|下载原图ZIP|生成PPT图6科研条件系统质量因子权重值计算过程示意
Fig.6Calculation process of the quality factor weight value of the scientific research condition system
结合判断矩阵阶数得到RI值,CR值是通过CI与RI计算得出进行一致性判断。一般情况下CR值越小,说明矩阵一致性越好。如果该值小于0.1,那么判断矩阵则满足一致性检验;如果大于0.1,则说明不具有一致性,需要对判断矩阵进行调整然后再次进行分析。本次数据质量评价指标形成的28阶判断矩阵计算得到CI值为0.000,RI值为1.667,因此计算得到CR值为0.000<0.1,说明本次研究判断矩阵满足一致性检验,计算所得权重具有一致性。
按照上述方法及计算过程研究得到ARP系统各业务模块的数据质量评价模型。
2.4 质量因子计算方法
上述质量因子具体测量计算方法[10]涉及到数据正确性、完整性和及时性三个维度。具体计算方法为:数据准确性=准确的数据项的数量/要求的数据项的数量
数据完整性=完整度覆盖的数据项数量/测量的所有数据项数量
数据时效性=及时更新的数据项/测量的所有数据项数量
3 成果运用与应用效果
基于数据质量控制因子在系统中提供数据质量自检服务,使用户能够在日常工作中随时发现问题,提高数据维护质量;基于数据质量评价模型生成评价报告,推送院属单位及院领导、主管厅局,构建了院属单位自查、院机关督查的双向推动体系。2020年度面向院属单位发布四期《ARP基础数据质量检查报告》,三期《院属单位ARP系统数据质量评价报告》,面向院领导、主管厅局发布两期《中国科学院ARP系统数据质量通报》,并在系统中增加了数据自检服务,使各层面用户能够及时了解系统中数据维护的情况。截至目前,在院属单位的共同努力下,核心业务系统数据质量均得到了改善,错误数据明显下降,数据完整性和正确率逐步提升。
通过技术上的一系列举措,ARP系统数据质量在完整性指标上大幅度提升,但在数据正确性方面还需要与管理制度进一步结合,通过业务验证不断促进正确性指标的改善。因此通过可视化分析技术[11],让管理者看得见数据至关重要。如图7所示,管理者可以掌握院属单位实际人员分布情况、年龄、学历结构等信息,便于掌握管理现状并与实际业务现状进行对比分析。另一方面,可通过专题数据报告反馈给主管领导,反馈数据质量差异反映出的管理问题,纳入管理评价体系,可进一步推动数据应用,加强数据质量管理。
图7
新窗口打开|下载原图ZIP|生成PPT图7ARP看板服务
Fig.7ARP data visualization
4 结语
通过系统性地研究数据治理体系并结合数据质量管理进行具体实践,在一定程度上改善了ARP系统的数据质量问题,但数据质量管理是一项长期的系统工程,需要持续根据系统迭代动态管理系统元数据,跟进管理需求并结合评价结果动态调整评价模型,通过数据共享加强数据应用促进数据正确性的提升,因此还需要建设ARP数据治理大数据管理平台全面提升数据质量,构建服务“四个率先”管理决策需求的“全数字化科学院科研管理和服务体系”,充分发挥大数据辅助管理决策的应用价值。使中国科学院科研管理信息化在向数字化转型中行稳致远,为推进“智慧中科院”建设打好基础。利益冲突说明
所有作者声明不存在利益冲突关系。参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
,
[本文引用: 1]
https://www.iso.org/standard/35749.html,
URL [本文引用: 1]
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
DOI:10.1016/j.jksuci.2016.05.003URL [本文引用: 1]
[本文引用: 1]
[D]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]