摘要&关键词
摘要:可持续发展目标(Sustainable Development Goals,SDGs)是联合国用于指导全球可持续性发展工作的新议程。各项目标之间的关联性,尤其是3级指标数据的相关性分析和研究,对于有效推动可持续发展目标的具体实施具有重要意义。本文基于《可持续发展报告2020》中联合国全体193个成员国的2000–2017年的3级指标时间序列数据,经过数据的预处理,并依据算法的相关性覆盖程度的大小,从Pearson、Spearman、Kendall和MIC 4个算法中遴选出MIC算法和Spearman算法,计算得到193个成员国2000 – 2017年总计62项可利用指标项、1766个指标对的相关系数和相关方向。本数据集可以作为联合国评估可持续发展目标未来实现的分析数据,也可以作为各国监测指标完成情况、制定相关政策的重要参考依据。
关键词:可持续发展目标;相关性分析;时间序列;最大信息系数;指标对
Abstract & Keywords
Abstract:?Sustainable Development Goals (SDGs) are the new agenda of the United Nations to guide global sustainable development work. The correlation between the various goals, especially the correlation analysis of and research on the third-level indicator data, is of great significance for effectively promoting the concrete implementation of the sustainable development goals. This paper is based on the third-level indicator time series data of all 193 UN member states during 2000 – 2017 in the Sustainability Report 2020. After data preprocessing, and based on the degree of correlation coverage of the algorithm, we selected MIC and Spearman from Pearson, Spearman, Kendall and MIC for calculation parctice and obtained a total of 62 available indicator items, correlation coefficients and correlation directions of 1,766 indicator pairs in 193 member states during 2000 – 2017. This dataset can be used as the analysis data for the UN to assess the future realization of the Sustainable Development Goals, as well as an important reference for countries to monitor the completion of indicators and formulate relevant policies.
Keywords:?Sustainable Development Goals;?correlation analysis;?time series;?maximum information coefficient;?indicator pairs
数据库(集)基本信息简介
数据库(集)名称 | 2000–2017年联合国各成员国的SDGs指标对相关性系数数据集 |
数据作者 | 高天、张丽丽、黎建辉 |
数据通信作者 | 黎建辉(lijh@cnic.cn) |
数据时间范围 | 2000–2017年 |
数据量 | 30.1 MB |
数据格式 | *.csv, *.png, *.cab |
数据服务系统网址 | http://www.dx.doi.org/10.11922/sciencedb.j00001.00217 |
基金项目 | 中国科学院战略性先导科技专项(XDA19020104);中国科学院国际大科学计划培育专项(241711KYSB20200023);北京市科技专项(Z201100008320027)。 |
数据库(集)组成 | 本数据集主要包括联合国193个全体成员国2000–2017年的SDGs指标对的相关系数表(.csv)和南半球遴选20个国家的数据可视化图片(.png),这些数据保存为1个cab格式文件(.cab)。 |
Dataset Profile
Title | A dataset of correlation coefficients of UN member states’ SDGs indicator pairs during 2000–2017 |
Data corresponding author | LI Jianhui (lijh@cnic.cn) |
Data authors | GAO Tian, ZHANG Lili, LI Jianhui |
Time range | 2000 – 2017 |
Data volume | 30.1 MB |
Data format | *.csv, *.png, *.cab |
Data service system | <http://www.dx.doi.org/10.11922/sciencedb.j00001.00217> |
Sources of funding | Strategic Priority Research Program of the Chinese Academy of Sciences (XDA19020104); Program for fostering International Megascience of the Chinese Academy of Sciences(241711KYSB20200023); Beijing Municipal S&T Commission Program(Z201100008320027). |
Dataset composition | This dataset mainly includes the correlation coefficient tables (.csv) of the SDGs indicator pairs of all 193 UN member states from 2000 to 2017 and the data visualization pictures (.png) of selected 20 countries in the southern hemisphere. These data are saved as a cab format file (.cab). |
引 言
联合国可持续发展目标(Sustainable Development Goals,SDGs)是联合国在《2030议程》中提出的一系列新的发展目标[1],全球发达国家和发展中国家均将其作为社会经济协调发展的重要指导,来保障人类社会的长期稳定和健康发展。由于SDGs的3级指标主要支撑2级具体目标的落实,且用于评估《2030年议程》未来的落实情况[2],学界已经广泛地展开关于SDGs目标和指标之间关联性的研究。
可持续发展目标的相关性分析需要以统计的指标数据为基础。《可持续发展报告2020》[3](以下简称报告)中提供的联合国全体193个成员国的统计数据包括了每项指标从2000–2020年的具体数值,但有些指标的数据不完整,个别年份存在缺失。且指标的时间序列数据只能反映指标本身随年份变化的结果,而无法看出与其他指标之间的关联性。因此,基于报告中已统计的元数据,通过分析计算得出指标的关联性数据,不仅可以直观反映出SDGs整体指标框架之间的联系,还可以为各国的政策实施和完善提供方法学的支持。
本文涉及的SDGs的3级指标数据包含基于对比分析所得的最优相关分析算法——MIC算法计算得出的指标对之间的相关系数和基于Spearman算法计算得到的指标对相关方向,全面地描述了SDGs指标数据之间的关联性,为联合国各成员国未来进一步研究和实施可持续发展目标提供了可靠的数据支撑。
1 ? 数据采集和处理方法
1.1 ? 数据来源
基于数据的规律性和可用性,本文所使用的SDGs指标的时间序列数据来自于《可持续发展报告2020》数据[3]。其中包含联合国成员国家一共193个,时间跨度为2000–2020年共21年,指标从SDG1到SDG17共包含85项。
1.2 ? 数据处理方法
数据处理方法一共有4阶段:数据预处理,相关性算法对比,基于最优相关性算法MIC的指标对相关系数的计算,和基于Spearman算法的指标对相关方向的计算,以及南半球20个国家的SDGs指标对系数可视化,整体流程如图1所示。
图1 ? SDGs指标数据处理流程
1.2.1 ? 数据预处理
(1)代码名称统一规范化
本文首先对原始数据中不一致的指标代码进行名称统一。原始数据中共有3处指标代码不一致,统一后的结果为:“sdg2_stunting”修改为“sdg2_stuntihme”,“sdg2_wasting”修改为“sdg2_wasteihme”,“sdg5_familypl”修改为“sdg5_fplmodel”。
(2)数据组织
按照国家将指标数据分别进行存储,对每个国家的指标进行处理。
① 完整性查验与预处理
处理规则为:a. 对于21年之中超过5年以上没有数据的指标进行直接删除;b. 根据每个国家每年的数据缺失率,最终选定了2000–2017年的指标数据。
② 数据补全与存储
a. 对于有一些年份缺失数据的指标利用Python的Sklearn库中KNNImputer函数进行补全,其中k的参数设为3;b. 最后将每个国家预处理好的数据存储成CSV格式的文件,方便未来对于数据的计算。
1.2.2 ? 相关性算法性能对比分析和选择
有代表性的相关性算法有以下4种,其各自的优缺点如表1所示。
表1 ? 4种相关性算法对比
相关性方法 | 优点 | 缺点 |
---|---|---|
Pearson[4] | 对线性相关比较敏感;包含了相关程度和相关方向 | 对非线性关系不敏感;容易受异常值影响 |
Spearman | 适用广泛,对变量的总体分布和容量没有要求;有效衡量两个变量的单调性;对数据错误和极端值反应不敏感 | 不容易检测出两个变量的实际相关关系,统计效能低于Pearson相关系数 |
Kendall[5] | 适用广泛,对变量的总体分布和容量没有要求;有效衡量两个变量的等级相关 | 不容易检测出变量序对一致性之外的相关关系 |
MIC[6] | 可以探测到函数、非函数和超函数等关系,具有普适性 | 只包含相关程度,不包含相关方向 |
SDGs指标数据存在多种函数和非函数关系,由表1可知,MIC在与其他相关性算法相比之下,可以探测到更多的相关关系。无论两个变量是线性、立方、指数、周期,还是非线性关系,MIC都可以探测出来,且可以给到较高的分数[7]。因此本文先将MIC作为探测SDGs指标对之间相关性的最优算法测度。但MIC无法检测到相关方向,因此我们选取Spearman相关系数来补充衡量指标对之间的相关方向。
1.2.3 ? 基于MIC算法的指标对相关系数计算
本研究利用MIC算法,对193个联合国成员国的共62项可实际使用指标进行了相关系数的计算。根据每个国家的指标对,将每项指标两两配对,共有1766个指标对。分别对每个国家的指标对进行MIC的相关系数计算,每个国家的数据为一列,对193个国家的数据进行合并存储。
1.2.4 ? 基于Spearman算法的指标对相关方向计算
由MIC的定义和性质可知,MIC系数的范围在0–1之间,本质上提供了相关程度的参考,而对于相关方向,其并无法表示。Spearman算法可以衡量2个变量之间的单调性,且不受变量的分布和样本容量影响。因此本研究利用Spearman算法,对每个指标对进行相关方向的判定,输出结果1表示正相关,?1表示负相关(1和?1与Spearman的相关系数取值无关,仅为相关方向的符号),作为MIC算法的补充。每个国家的处理过程和1.2.3一样,最终结果存储到一个CSV格式的文件中。
1.2.5 ? 南半球20个国家的SDGs指标对系数可视化
SDGs指标对相关系数可用于缺失数据补全,提供SDGs实施方向指南,发掘SDGs发展进程,有助于对SDGs问题的及时发现与政策校准,这在发展中国家的意义尤为突出。由于地理位置和历史原因,南半球的国家绝大部分都是发展中国家,其更应该受到国际的关注。因此本研究根据南半球各国的指标数量,选取联合国成员国南半球国家中数据完整性前20的国家,以热力图形式按国别展示其SDGs指标对的相关关系,图片存储在数据集中。(注:图片中为显示出指标对的相关方向的颜色差异,因此将负相关的MIC系数取负,负号仅代表相关方向。)
2 ? 数据样本描述
本数据包括2000–2017年间,共193个联合国成员国的SDGs的指标对的MIC相关系数,以及相关方向。为方便计算和应用,本研究将数据存储名为Correlation coefficient of Indicator pairs.csv的文件,横轴代表国家,纵轴代表指标对相关系数的和得分。原始数据集由文献[3]所提供,该数据集包括About、Overview、Codebook、SDR2020 Data、Raw Trend Data 4共5张子表。其中Codebook表中详细描述了每一项指标的特征,Raw Trend Data是193个国家2000–2020年的指标原始数据集。根据预处理后所得数据集,最终一共有62项可用指标,经无重复互相配对后共有1766个指标对。为展示数据集样本,此节随机选取南半球的一个成员国“安哥拉(Angola)”的数据集以及其可视化结果,如表2和图2所示。整体数据集内指标对出现的国家数量和缺失国家部分结果见表3。
表2 ? SDGs指标对相关系数和相关方向(Angola,前15个指标对)
Indicator pairs | Angola(coefficient) | Angola(direction) |
---|---|---|
sdg2_undernsh-sdg2_stuntihme | 1 | 1 |
sdg2_undernsh-sdg2_wasteihme | 1 | 1 |
sdg2_undernsh-sdg2_obesity | 1 | -1 |
sdg2_undernsh-sdg2_trophic | 0.2968 | 1 |
sdg2_undernsh-sdg2_crlyld | 0.4591 | -1 |
sdg2_undernsh-sdg2_snmi | 0.2687 | 1 |
sdg2_undernsh-sdg3_matmort | 1 | 1 |
sdg2_undernsh-sdg3_neonat | 1 | 1 |
sdg2_undernsh-sdg3_u5mort | 1 | 1 |
sdg2_undernsh-sdg3_tb | 0.4591 | -1 |
sdg2_undernsh-sdg3_hiv | 0.3569 | 1 |
sdg2_undernsh-sdg3_lifee | 1 | -1 |
sdg2_undernsh-sdg3_fertility | 1 | 1 |
sdg2_undernsh-sdg3_vac | 0.7394 | -1 |
sdg2_undernsh-sdg5_fplmodel | 1 | -1 |
图2 ? SDGs指标对相关系数热力图(Angola)
表3 ? SDGs指标对出现国家数量和缺失国家(部分)
指标对代码 | 国家个数 | 未出现国家 |
---|---|---|
sdg9_articles-sdg13_co2pc | 193 | None |
sdg9_articles-sdg15_redlist | 193 | None |
sdg13_co2pc-sdg15_redlist | 193 | None |
sdg3_neonat-sdg3_u5mort | 192 | Liechtenstein |
sdg3_neonat-sdg9_articles | 192 | Liechtenstein |
sdg3_neonat-sdg13_co2pc | 192 | Liechtenstein |
sdg3_neonat-sdg15_redlist | 192 | Liechtenstein |
sdg3_u5mort-sdg9_articles | 192 | Liechtenstein |
sdg3_u5mort-sdg13_co2pc | 192 | Liechtenstein |
sdg3_u5mort-sdg15_redlist | 192 | Liechtenstein |
sdg3_neonat-sdg3_vac | 190 | Liechtenstein, Montenegro, Sudan |
sdg3_u5mort-sdg3_vac | 190 | Liechtenstein, Montenegro, Sudan |
sdg3_vac-sdg9_articles | 190 | Liechtenstein, Montenegro, Sudan |
sdg3_vac-sdg13_co2pc | 190 | Liechtenstein, Montenegro, Sudan |
sdg3_vac-sdg15_redlist | 190 | Liechtenstein, Montenegro, Sudan |
sdg3_neonat-sdg7_cleanfuel | 189 | Lebanon, Libya, Liechtenstein, Turkey |
sdg3_u5mort-sdg7_cleanfuel | 189 | Lebanon, Libya, Liechtenstein, Turkey |
sdg7_cleanfuel-sdg9_articles | 189 | Lebanon, Libya, Liechtenstein, Turkey |
sdg7_cleanfuel-sdg13_co2pc | 189 | Lebanon, Libya, Liechtenstein, Turkey |
sdg7_cleanfuel-sdg15_redlist | 189 | Lebanon, Libya, Liechtenstein, Turkey |
3 ? 数据质量控制和评估
本数据集的质量控制体现在两方面:一是数据预处理中对原始指标时间序列的名称统一、删减和补全;二是对选取MIC算法进行实际的验证。
3.1 ? 数据预处理控制
对于原始数据的预处理是后期SDGs指标数据相关性分析的必须前提,名称不统一和缺失的数据会对后续的分析产生很大影响。其中名称统一详见第1.2.1节。Olga Troyanskaya和Michael Cantor等人[8]基于无噪声的时间序列、有噪声的时间序列和非时间序列3组基因微矩阵的数据集,利用KNN算法、SVD算法和行平均算法进行对比验证,证实了KNN算法在估算缺失值方面具有更好的稳定性和健壮性。因此本文选用KNN填补法对SDGs指标数据进行缺失值估算填充。
3.2 ? MIC算法的质量检验
由于国家数量较多,本研究依据每个大洲的GDP排名[9],选取了排名靠前的20%的国家(共43个)的指标数据对4种相关性算法进行了对比实验。对SDGs指标数据的相关性研究从根本上是要探索和发现指标之间更多的关联性,在此基础上本文提出了两种评价维度用来评价4种相关性算法的优劣。43个国家的名字如表4所示。
表4 ? 43个国家(排名不分先后)
序号 | 国家 | 大洲 |
---|---|---|
1 | 中国 | 亚洲 |
2 | 日本 | |
3 | 印度 | |
4 | 韩国 | |
5 | 印度尼西亚 | |
6 | 沙特阿拉伯 | |
7 | 伊朗 | |
8 | 泰国 | |
9 | 阿联酋 | |
10 | 以色列 | |
11 | 德国 | 欧洲 |
12 | 英国 | |
13 | 法国 | |
14 | 意大利 | |
15 | 俄罗斯 | |
16 | 西班牙 | |
17 | 荷兰 | |
18 | 土耳其 | |
19 | 瑞士 | |
20 | 尼日利亚 | 非洲 |
21 | 南非 | |
22 | 埃及 | |
23 | 阿尔及利亚 | |
24 | 摩洛哥 | |
25 | 肯尼亚 | |
26 | 埃塞俄比亚 | |
27 | 安哥拉 | |
28 | 加纳 | |
29 | 坦桑尼亚 | |
30 | 刚果民主共和国 | |
31 | 澳大利亚 | 大洋洲 |
32 | 新西兰 | |
33 | 巴布新几内亚 | |
34 | 斐济 | |
35 | 所罗门群岛 | |
36 | 美国 | 北美洲 |
37 | 加拿大 | |
38 | 墨西哥 | |
39 | 多米尼加共和国 | |
40 | 危地马拉 | |
41 | 巴西 | 南美洲 |
42 | 阿根廷 | |
43 | 哥伦比亚 |
两种评价维度:公式(1)代表广度覆盖,公式(2)、(3)代表深度覆盖[10]。
\(Bcov\left({M}_{a}\right)=\frac{\left|{S}_{a}\right|}{\left|S\right|}\) (1)
\(Dcov\left({M}_{a},{M}_{b}\right)=\frac{\left|{S}_{a}\cap {S}_{b}\right|}{\left|{S}_{b}\right|}\) (2)
\(Dcov\left({M}_{b},{M}_{a}\right)=\frac{\left|{S}_{b}\cap {S}_{a}\right|}{\left|{S}_{a}\right|}\) (3)
其中,\({S}_{a}\)代表利用\({M}_{a}\)算法对相关系数矩阵进行阈值\(\lambda (\left|\lambda \right|\in \left[0,?1\right])\)筛选后得到的指标对集合(其中不包含同一指标与本身的相关性得分),\({S}_{b}\)同理。\(S\)代表总指标对的集合。广度覆盖表示在\({M}_{a}\)方法下探测到的有效的指标对占总体指标对的比例;深度覆盖表示在\({M}_{a}\)和\({M}_{b}\)方法都能探测到的有效指标对中,分别占\({M}_{a}\)方法下的指标对和\({M}_{b}\)方法下的指标对的比例。
43个国家的总指标对数量如图3所示。
图3 ? 43个国家的总指标对数量
对于前3种传统的统计学相关性算法进行显著性检验,Pearson、Spearman、Kendall在显著性水平\(\alpha =0.05\)的条件下,分别查表[11-12]得到相关系数临界值为:\({r}_{p}=0.468\),\({r}_{s}=0.503\),\({r}_{k}=0.317\),自由度均为\(18-2=16\)。根据3种测度算法的相关系数临界值,可以计算指标对在3种算法测度下的相关系数满足\(\left|{r}_{p}\right|>0.468\),\(\left|{r}_{s}\right|>0.503\),\(\left|{r}_{k}\right|>0.317?\)(包括了正相关和负相关两种相关方向)的条件下,指标对之间拒绝零假设,存在相关关系。
MIC和其他3种相关性算法测度的广度覆盖和深度覆盖分别如图4和图5所示。从图中分布可以看出,对于两种评价维度,MIC对于其他3种测度的覆盖,明显优于其他3种测度对MIC的覆盖。这说明MIC可以探测到更广泛的相关关系,因此选取MIC算法作为SDGs指标数据相关性分析的最优算法。
图4 ? 43个国家广度覆盖评价维度对比结果
图5 ? 43个国家深度评价维度对比结果
4 ? 数据价值
SDGs的目标涵盖了经济、政治、人文等多个领域,截止到2020年,SDGs共有17个总体目标,169个相关目标和230多个用来监测实施进展情况的指标。从出现国家次数排名前20的总指标对中可以看出,科技期刊论文数量、与能源相关的二氧化碳排放量和物种生存指数红色名单这3个指标均被所有国家统计,这意味着这些指标对所有国家都具有广泛的影响效应。可以更深层次地反映出,各国对于科技、能源和生物的重视应不亚于经济发展的重视。对于出现次数较少的指标如sdg9_netacc〔Gap in internet access by income (percentage points)〕和sdg10_adjgini(Gini coefficient adjusted for top income)等,可能与数据缺失量较大有关。需要各国政府进一步加强对这些问题的关注,督促有关部门尽快制定和完善监测工作和统计方案,以保障从各个方面推进可持续发展议程的实质进展。
本数据集包括联合国193个成员国的2000–2017年的SDGs 62项可利用指标对相关系数和相关方向,以及南半球数据量排名前20的国家的相关系数可视化结果。数据集存储在CAB格式的文件中。相关系数和相关方向包含了SDGs指标数据较为有价值的相关性信息,其中相关系数反映了指标之间的相关程度,进而反映了指标之间影响作用的大小;相关方向反映了指标之间互相影响的方向,揭示了SDGs指标之间的促进和制约关系。本数据集为SDGs指标监测和实施提供了一定的参考价值,用户既可用来分析SDGs指标之间促进和制约的关系,亦可参考制定相应政策。
致 谢
感谢基金项目对于本研究的支持,以及感谢Sachs J、Schmidt-Traub等人提供的原始数据。
[1]
ASSEMBLY G. Resolution adopted by the General Assembly on 19 September 2016[R]. A/RES/71/1, 3 October 2016 (The New York Declaration), 2015.
+?CSCD?·?Baidu Scholar
[2]
朱婧, 孙新章, 何正. SDGs 框架下中国可持续发展评价指标研究[J]. 中国人口·资源与环境, 2018, 28(12): 9-18.
+?CSCD?·?Baidu Scholar
[3]
SACHS J, SCHMIDT-TRAUB G, KROLL C, et al. The Sustainable Development Goals and COVID-19[R]. Sustainable Development Report, 2020.
+?CSCD?·?Baidu Scholar
[4]
PEARSON K. Notes on the history of correlation[J]. Biometrika, 1920, 13(1): 25-45.
+?CSCD?·?Baidu Scholar
[5]
KENDALL M G. A new measure of rank correlation[J]. Biometrika, 1938, 30(1/2): 81-93.
+?CSCD?·?Baidu Scholar
[6]
RESHEF D N, RESHEF Y A, FINUCANE H K, et al. Detecting novel associations in large data sets[J]. science, 2011, 334(6062): 1518-1524.
+?CSCD?·?Baidu Scholar
[7]
樊嵘, 孟大志, 徐大舜. 统计相关性分析方法研究进展[J]. 数学建模及其应用, 2014, 3(1): 1.
+?CSCD?·?Baidu Scholar
[8]
TROYANSKAYA O, CANTOR M, SHERLOCK G, et al. Missing value estimation methods for DNA microarrays[J]. Bioinformatics, 2001, 17(6): 520-525.
+?CSCD?·?Baidu Scholar
[9]
World Population Review. GDP Ranked by Country 2020[EB/OL]. (2018–08–21) [2020–12–05]. https://worldpopulationreview.com/countries/countries-by-gdp.
+?CSCD?·?Baidu Scholar
[10]
杨甲森. 卫星遥测数据相关性知识发现方法研究[D]. 中国科学院大学 (中国科学院国家空间科学中心), 2019.
+?CSCD?·?Baidu Scholar
[11]
陈志芳, 李国晖. 概率论与数理统计[M]. 北京: 科学出版社, 2016.
+?CSCD?·?Baidu Scholar
[12]
孙山泽. 非参数统计讲义[M]. 北京: 北京大学出版社, 2000.
+?CSCD?·?Baidu Scholar
数据引用格式
高天, 张丽丽, 黎建辉. 2000–2017年联合国各成员国的SDGs指标对相关性系数数据集[DB/OL]. Science Data Bank, 2021. (2021-01-15). DOI: 10.11922/sciencedb.j00001.00217.
稿件与作者信息
论文引用格式
高天, 张丽丽, 黎建辉. 2000–2017年联合国各成员国的SDGs指标对相关性系数数据集[J/OL]. 中国科学数据, 2021, 6(1). (2021-01-15). DOI: 10.11922/csdata.2021.0008.zh.
高天Gao Tian
主要承担工作:数据处理、论文撰写。
(1995—),男,内蒙古呼和浩特市人,在读硕士研究生,研究方向为大数据挖掘与应用。
张丽丽Zhang Lili
主要承担工作:数据校核、质量控制。
(1984—),女,高级工程师,研究方向为开放科学、开放数据技术政策,信息经济学。
黎建辉Li Jianhui
主要承担工作:文章框架和方向的把握。
lijh@cnic.cn
(1973—),男,研究员,研究方向为大数据资源开放共享、大数据管理技术、大数据计算与分析技术等。