删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种基于特征选择与迁移学习的数据预测方法

本站小编 Free考研考试/2022-01-02

<script type="text/javascript" src="https://cdn.bootcss.com/mathjax/2.7.2-beta.0/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script> <script type='text/x-mathjax-config'> MathJax.Hub.Config({ extensions: ["tex2jax.js"], jax: ["input/TeX", "output/HTML-CSS"], tex2jax: {inlineMath: [ ['$','$'], ["\\(","\\)"] ],displayMath: [ ['$$','$$'], ["\\[","\\]"] ],processEscapes: true}, "HTML-CSS": { availableFonts: ["TeX"] }, "HTML-CSS": {linebreaks: {automatic: true}}, SVG: {linebreaks: {automatic: true}} }); </script> 陈通宝1,2, 温亮明1,2, 黎建辉,1,*1. 中国科学院计算机网络信息中心, 北京 100190
2. 中国科学院大学, 北京 100049

A Data Prediction Method Based on Feature Selection and Transfer Learning

Chen Tongbao1,2, Wen Liangming1,2, Li Jianhui,1,*1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
2. University of Chinese Academy of Sciences, Beijing 100049, China

通讯作者: * 黎建辉 (E-mail:lijh@cnic.cn)

收稿日期:2020-01-29网络出版日期:2020-04-20
基金资助:中国科学院战略性先导科技专项(A类)子课题:“大数据资源库与门户系统”.XDA19020104


Received:2020-01-29Online:2020-04-20
作者简介 About authors

陈通宝,中国科学院计算机网络信息中心,中国科学院大学,硕士研究生,主要研究方向为推荐技术、大数据挖掘、自然语言处理。
本文承担工作为:模型设计、实验数据分析、文章撰写。
Chen Tongbao is a master student in Computer Network Information Center, Chinese Academy of Sciences (University of the Chinese Academy of Sciences). His research interests include recommendation technology, big data mining and natural language processing.
In this paper, he is mainly responsible for model design, experimental data analysis, and article writing.
E-mail:chentongbao@cnic.cn


温亮明,中国科学院计算机网络信息中心,中国科学院大学,博士研究生,主要研究方向为科学数据共享、数据资产管理。
本文承担工作为:参与文章修改。
Wen Liangming is a Ph.D. student in Computer Network Information Center, Chinese Academy of Sciences (University of the Chinese Academy of Sciences). His research interests include scientific data sharing and data asset management.
In this paper, he participates in article revisions.
E-mail:wenliangming@cnic.cn


黎建辉,中国科学院计算机网络信息中心,博士,研究员,博士生导师,研究方向为大数据资源开放共享、大数据管理技术、大数据计算与分析技术等。
本文承担工作为:文章框架的整体结构设计、研究指导。
Li Jianhui is the research fellow and the Ph.D. supervisor in Computer Network Information Center, Chinese Academy of Sciences. His research interests include open sharing of big data resources, big data management technology, big data computing and analysis technology, etc.
He contributed to the organization of the paper and supervised the research. E-mail:lijh@cnic.cn



摘要
【目的】联合国可持续发展目标(Sustainable Development Goals ,SDGs)已经成为全球最重要的可持续发展问题。然而,SDGs指标相关数据高缺失率的现状严重影响了联合国对各国可持续发展目标实行过程的有效监测。研究如何对SDGs中的相关缺失数据进行补全具有重大的技术挑战,也对鞭策各国完成可持续发展目标具备重大意义。【方法】本文提出了一种融合MIC(最大信息系数)进行特征选择的迁移学习方法TLM(一种融合最大信息系数和迁移学习的方法),其能通过其它公开数据为目标变量构造特征,并联合相关回归技术建立数据预测模型,以达到对目标变量的缺失值进行预测的目的。【结果】本文以特定国家中SDGs指标3.2.1的数据集为例,使用TLM方法对目标变量的缺失值进行预测并补全,验证了TLM方法的有效性。【局限】由于影响SDGs指标的波动因素众多,因此,探索更多相关性分析方法并结合TLM方法对缺失值进行更加精确的预测是今后进一步研究的重点方向。【结论】结合了MIC和迁移学习的TLM方法能提升数据预测的准确率,可为SDGs相关领域工作者在处理数据缺失问题时提供重要的参考价值。
关键词: 联合国可持续发展目标;迁移学习;回归;数据缺失;数据补全方法

Abstract
[Objective] The Sustainable Development Goals (SDGs) have become the most important sustainable development issue in the world. However, the high rate of missing data related to SDGs indicators has affected the UN’s effective monitoring of implementation of sustainable development goals in various countries. Completion of the missing data in SDGs is technically challenging, and is of great significance in urging countries to achieve sustainable development goals. [Methods] This paper proposes a transfer learning method named TLM, which incorporates with MIC (maximal information coefficient) for feature selection. It can construct features for the target data from other public data and build a prediction model with related regression technology to predict the missing values of the target data. [Results] This article takes the data set of SDGs indicator 3.2.1 in a specific country as an example and uses TLM to predict the missing values of target data. The effectiveness of TLM is verified. [Limitations] Due to the many factors that can affect SDGs indicators, exploring more correlation analysis methods which can be combined with TLM to make more accurate predictions of missing values is the focus of our future research. [Conclusions] The TLM method which combines with MIC and transfer learning can improve the accuracy of data prediction. Besides, it can provide effective reference value predictions for researchers in the related fields of SDGs when dealing with data missing problems.
Keywords:sustainable development goals;transfer learning;regression;data missing;data completion methods


PDF (6779KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
陈通宝, 温亮明, 黎建辉. 一种基于特征选择与迁移学习的数据预测方法. 数据与计算发展前沿[J], 2020, 2(2): 145-154 doi:10.11871/jfdc.issn.2096-742X.2020.02.012
Chen Tongbao. A Data Prediction Method Based on Feature Selection and Transfer Learning. Frontiers of Data and Computing[J], 2020, 2(2): 145-154 doi:10.11871/jfdc.issn.2096-742X.2020.02.012


引言

联合国可持续发展目标(SDGs)已经成为国际社会上最重要的科学议题之一,其主要目的是号召世界各国通过采取措施消除贫穷、保护地球进而确保到2030年时全人类能够实现和平以及繁荣[1]。如何通过相应措施实现科学地监测和评估SDGs进而据此作出相应战略,是世界各国摸索的重大议题。由国务委员王毅对外发布的《地球大数据支撑可持续发展目标报告》在揭示了地球大数据相关技术对监测评价SDGs的应用价值和前景的同时也为国际社会填补了数据和方法论的空白,进而推动落实2030年议程[2]。由此可见数据在监测评估SDGs中的重要支撑作用,但是数据缺失问题严重影响了联合国对各国目标实行过程的有效监测。

针对缺失数据的处理措施主要可以划分为删除法、加权法以及插补法三种,而插补法通常又可分为统计学插补法以及机器学习插补法两种[3]。删除法主要适用于数据缺失比例较低的大数据集,当数据集的缺失值较多,或者数据集中包含的样本量很少时,采用删除法可能会丢失过多的样本,导致较大误差[4]。均值插补法、回归插补法以及最近邻插补法是统计学插补法中具有代表性的三种。其中,均值插补法的主要思想是运用所研讨属性(或变量)的已观测数据的均值作为缺失值的代替值,适用于分布集中、缺失率较低的数据集;而回归插补法则利用无缺失值且与缺失数据相关的变量作为辅助变量来建立适当的回归模型,并根据得到的模型插补缺失值,适用于有多个辅助变量的数据集,但若辅助变量与目标变量间不存在可靠的相关关系则会使得结果存在较大误差[5];最近邻插补法由Hodges等人在20世纪初提出,其原理在于通过利用不存在缺失数据的变量作为辅助变量并基于定义的距离函数来对目标变量的缺失值进行填充。机器学习插补法适用于各种分布类型的数据,对高维数据的插补有较好的处理效果[6],Jerez等通过将机器学习插补法和统计学习插补法进行详细对比,进而得出机器学习插补法具有较为明显优势的结论[7],Eirola等人提出的一种将高斯混合模型以及极限学习机(ELM)应用于数据补全的方法能在大量数据的情景下具有较好的泛化性能,但该方法需要耗费较长的运行时间且不适用于小样本的情景[8];Kumar S等人提出了一种基于迁移学习的GDP预测方法[9],该方法使用与GDP正相关的二氧化碳排放量作为特征,通过发达国家或发展中国家的二氧化碳排放量预测人均国内生产总值,但该方法并无涉及如何在高维数据中进行特征选择;而在SDGs情境下,许多目标变量所能收集到的样本量少,同时并没有给定与变量相关的特征,故传统的数据补全方法受到限制。

针对SDGs中存在的问题,本文提出了一种基于特征选择和迁移学习的数据预测方法TLM。该方法利用最大信息系数Maximal Information Coefficient (MIC) 从其它数据源中为目标变量构造出具有代表性的特征,达到特征增强的目的,然后将源域数据和少量目标域数据进行混合以建立回归预测模型,这强化了模型的鲁棒性和自适应性,在改善由于源域数据不足而导致的性能受限问题的同时能较好地处理源域和目标域之间的分布差异,最终使得模型对缺失值的预测准确率上升。

1 基于MIC与迁移学习的预测方法TLM

1.1 最大信息系数(MIC)

MIC是一种能被应用于衡量两个变量XY之间的线性或非线性强度的方法,是基于信息的非参数性探索[10]

假设用ab的网格对存在于二维空间中的数据点集进行划分,以网格(x, y)中数据点落下的频率估计P(x, y),以第x行数据点落下的频率估计P(x),同样估计P(y),进而基于所获得的量推算出随机变量XY之间的互信息。由于用ab划分数据点的方法有很多种,因此需要寻求一种具有最大互信息的网格划分模式。通过运用归一化因子将互信息的值转换至(0,1)间,最终挖掘出能最大化归一化互信息的网格分辨率,并视其为MIC的测量值。

MIC测量既拥有普适性,也具备均衡性。它能够在找到变量之间的线性函数关系的同时挖掘出变量之间的非线性函数关系,此外,其能够在纵向对比同一关系的强度的同时对不同关系的强度进行横向对比。

1.2 迁移学习

迁移学习(TL):对于源域Ds及其学习任务Ts、目标域Dt及其学习任务Tt,迁移学习的基本原理是利用Ds在解决Ts的过程中所获得的一些知识协助目标任务Dt学习到较优的预测函数F(x)[11]

源域指用于训练的训练集,目标域指用于预测的测试数据。域的差异可以分为两种情况:其中一种是特征空间存在差异,另一种是边缘概率分布存在差异。任务的差异体现在两个层面:其中一方面是标签空间存在差异,另一方面是条件概率存在差异。

从迁移内容来看,迁移学习可分为样本迁移、特征迁移以及参数迁移[12]

一般来说,样本迁移将源域的样本作为目标域的加权样本集成到目标域中,直接用于训练,经过不同的算法能够调整目标域中样本的权重。特征迁移包括两种方式,第一种方式的主要思想是在调整训练权重后将特征加入到目标域中,第二种方式是通过利用映射建立源域和目标域之间的特征关联进而达到减小源域和目标域之间的分布差异的目的。参数迁移的主要思想是在源域和目标域之间应用参数共享,或者结合多个源域模型来解决目标域问题。

1.3 TLM构建

TLM(a method of incorporating transfer learning and MIC)的主要思想是利用最大信息系数来进行特征选择,然后结合样本迁移的思想来建立数据预测模型,其主要过程如下所示:



在步骤1中,使用MIC从公开数据源中为目标变量构造具有代表性的特征。

在步骤2中,使用完整的源域数据和少量的目标域数据进行混合构成训练数据Dm。其中Dm为k维,且其对应的输出标签为Tm

在步骤3中,使用回归技术,以Dm作为输入向量,Tm作为标签,训练所选回归器。

在步骤4中,使用步骤2中经过训练得到的回归器对目标域数据Dt进行预测,得到T't。其中Dt的数据特征维度与Dm的相同。

在步骤5中,使用MAE和RMSE两种度量标准并根据真实的标签值Tt对预测值T't的效果进行评估。

迭代步骤2至步骤5,针对目标域数据,得出效果最优的源域数据及其MAE和RMSE。

支持向量机是在统计学习理论下提出来的一种可应用于小样本机器学习相关问题的通用方法,而支持向量回归(SVR)旨在应用支持向量机的思想解决回归问题。在SDGs情景下,考虑到一般的回归模型容易由于样本量小而导致模型泛化效果差,故步骤3中的回归技术采用径向基核函数的SVR,记为TLM-SVR。

2 实证研究

2.1 评价指标

由于使用误差评估能够更加直观地衡量模型的预测性能,故大多数研究者在机器学习中均采用误差评估,本文应用平均绝对误差(MAE)以及均方根误差(RMSE)两种常用的误差评价指标。

这两种统计方法定义如下:

2.1.1 RMSE

${{{Y}'}_{i}}$表示预测值,${{Y}_{i}}$表示实际值,n表示样本数。则$RMSE={{\sqrt{(\frac{\sum\nolimits_{i=1}^{n}{{{({{{{Y}'}}_{i}}-{{Y}_{i}})}^{2}}}}{\text{n}})}}_{{}}}$。

模型预测精度与RMSE的值成反比,即RMSE越小,模型性能越好。

2.1.2 MAE

Y'i表示预测值,Yi表示实际值,n表示样本数。

$MAE=\frac{1}{\text{n}}\sum\nolimits_{i=1}^{n}{\text{ }\!\!|\!\!\text{ }{{{{Y}'}}_{i}}-{{Y}_{i}}\text{ }\!\!|\!\!\text{ }}$

模型预测精度与MAE的值成反比,即MAE越小,模型性能越好。

2.2 SDGs3.2.1数据集

2017年,可持续发展目标指标机构间专家组(以下简称“IAEGSDGs”)发布了包括232个指标在内的可持续发展目标官方指标体系,用来监测全球可持续发展目标的施行进程。

根据定义和统计方法,IAEGSDGs将232个指标分为三类。截至2019年12月,类别一有指标116项,这些指标都明确了定义,同时在规范了相应的统计方法的基础上收集了相应的统计数据;类别二有指标92项,这些指标虽然明确了定义,同时建立了规范的统计方法,但是缺乏必要的相关统计数据;类别三有指标20项,这些指标或没有明确定义或没有建立规范的统计方法;除此之外,还有4个指标有多个层次(指标的不同组成部分分为不同的层次)。在类别一的116项指标中,有些指标的组成部分在不同国家中存在不同程度的统计值缺失率[13]

本文拟以SDGs 3.2为例,其中指标3.2.1为“五岁以下儿童死亡率”,即Under-five mortality rate,其下有统计变量“五岁以下儿童的死亡率(每千名活产婴儿死亡)”,表1展示了部分国家于1950年-2016年间在该统计变量上的缺失率(缺失率=该统计值缺失的年份数/年份跨度)。

Table 1
表1
表1SDGs指标3.2.1缺失率
Table 1Missing rate of SDGs indicator 3.2.1
国家GermanyLithuaniaCosta RicaCubaRomaniaChilePoland
缺失率27%25%22%19%19%13%12%
国家BahrainBrazilEl SalvadorMaltaHungarySingaporeUruguay
缺失率9%7%7%6%6%6%6%
国家BotswanaAustriaColombiaPanamaFinlandNorwayUnited States
缺失率6%6%3%1%1%0%0%
国家AustraliaCanadaDenmarkFijiIrelandJapanMalaysia
缺失率0%0%0%0%0%0%0%

新窗口打开|下载CSV

表1中可以看出,部分国家,如Costa Rica、Germany等在目标值上的缺失率超过20%以上。由于世界各国和地区的发展状况不同,所处的社会稳定情况不同,如有的国家因为常年处于战乱状态而难以收集到该国家在相关可持续发展指标上的统计数据等,个别国家和地区在可持续发展指标上相关统计数据的缺失率较高,这限制了联合国对相应国家在可持续发展目标上进行有效监测。

在缺失率大于0的19个国家中随机挑选8个国家作为待预测填充缺失值的目标域。

表2展示了随机抽取而得的8个国家:Bahrain、Botswana、Brazil、Colombia、Costa Rica、Romania、Uruguay、El Salvador在1950-2016年间的缺失情况。

Table 2
表2
表21950-2016年间的数据缺失情况
Table 2Time period of missing values during 1950 to 2016
国家存在缺失数据的时间区间
Bahrain1950 to 1955
Botswana1950 to 1953
Brazil1950 to 1954
Colombia1950 to 1951
Costa Rica1950 to 1964
Romania1950 to 1962
Uruguay1950 to 1953
El Salvador1950 to 1954

新窗口打开|下载CSV

2.3 实验过程

本文采用的实验环境为1台windows10 64

位操作系统的PC,运行内存8GB,编程环境是Python3.6。

2.3.1 为SDGs指标3.2.1构造特征

首先,数据收集。从公开数据集OECD[14]、ITU[15]、Fund for Peace[16]、World Bank Open Data[17]上收集整理255个国家和地区于2000年的统计数据,共涉及统计变量1601个。

其次,特征选择。为了从以上1601个统计变量中找到与指标3.2.1(5岁以下死亡率 Under 5 mortality rate)相关的统计变量,我们以国家为维度形成维度为255的统计变量x,接着采用MIC计算指标与统计变量之间的相关度。最终得到与指标3.2.1相关性最高的三个变量分别为“女性出生时的预期寿命”、“政府在医疗保健上的人均支出PPP”、“35-59岁间女性由传染病引起的死亡(相关年龄组的百分比)”。鉴于数据的可获取性和完整性等现实客观原因,最终采用“女性出生时的预期寿命”作为指标3.2.1的特征。

2.3.2 实验结果和性能分析

我们以表1中的28个国家在1970-2016年间的数据为实验样本,共1 316个样本。其中取出1970-2012年间的数据作为训练集,2013-2016年的数据作为测试集,以此数据进行模型训练和性能测试。针对表2中的每一个特定的国家,使用该国家的数据作为目标域,分别将剩余27个国家作为源域训练预测模型TLM-SVR,并对测试集进行测试,然后将TLM-SVR模型与广为采用的均值插补法和SVR方法进行对比,分析三种不同方法对同一测试集的效果。

SVR模型和TLM-SVR模型均有两个重要的参数,分别为Cgamma,其中C为惩罚系数,即模型对误差的容忍度,gamma是选择RBF(径向基核函数)作为核函数之后,该函数自带的一个重要参数。在SVR模型和TLM-SVR模型中,根据经验和实验调参,最终将参数设置为:SVR(kernel = 'rbf', C = 1e3, gamma = 0.01)

图1图2分别展示了由本文所提出的TLM方法训练所得的均值插补方法、SVR方法与TLM-SVR模型在Bahrain、Botswana、Brazil、Colombia、Costa Rica、Romania、Uruguay、El Salvador八个国家的测试集上所取得的MAE和RMSE。从图1图2可以看出,在8组实验中,相比较于传统的均值插补法和SVR模型,TLM-SVR模型能有效地提升模型的预测性能。

图1

新窗口打开|下载原图ZIP|生成PPT
图1三种方法在同一测试集上的MAE

Fig.1The MAE of three methods on the same test set



图2

新窗口打开|下载原图ZIP|生成PPT
图2三种方法在同一测试集上的RMSE

Fig.2The RMSE of three methods on the same test set



表3表示针对以上八个国家,均值插补方法、SVR方法和TLM-SVR模型对同一测试集的效果,其中,TLM-SVR(Finland-Bahrain)表示以Finland的数据作为源域数据并融合Bahrain的已有数据进而经过TLM-SVR训练而得的模型。从表3可以看出,针对Bahrain这个国家而言,均值插补法在测试集上的MAE和RMSE的值均最大,且SVR模型相比均值插补法,明显提升了预测精准度,MAE和RMSE分别从17.910465和17.910814降至0.243053和0.296189,而TLM-SVR(Finland-Bahrain) 在测试集上的MAE和RMSE均比SVR的小,MAE和RMSE分别降至0.23997和0.288697,说明TLM-SVR(Finland-Bahrain)的泛化能力更强(即对测试集的效果更好)。综合起来看,可见TLM-SVR(Finland-Bahrain)取得了更好的预测效果,这表明了TLM-SVR(Finland-Bahrain)的有效性。

Table 3
表3
表3三种方法分别在8个国家的测试集中得到的MAE和RMSE
Table 3MAE and RMSE obtained by three methods in the test set of eight countries
目标国家方法MAERMSE
Bahrain均值插补17.91046517.910814
SVR0.2430530.296189
TLM-SVR(Finland-Bahrain)0.239970.288697
Botswana均值插补29.37441929.456773
SVR5.9767856.945181
TLM-SVR(Australia-Botswana)0.6523980.882015
Brazil均值插补49.64883749.655030
SVR2.5261612.575070
TLM-SVR(Costa Rica-Brazil)0.8132970.864135
Colombia均值插补26.44302326.448932
SVR1.7817181.782010
TLM-SVR(Canada-Colombia)0.759660.760152
Costa Rica均值插补14.14825614.153092
SVR2.4558052.486353
TLM-SVR(Poland-Costa Rica)0.4077600.488031
Romania均值插补19.70523319.708832
SVR1.9228511.959395
TLM-SVR(Japan-Romania)0.3306070.386404
Uruguay均值插补18.74244218.743426
SVR1.8881151.888998
TLM-SVR(Chile-Uruguay)0.1023240.131846
El Salvador均值插补4.0593024.060842
SVR2.1589072.159165
TLM-SVR(Austria-El Salvador)0.1051680.116916

新窗口打开|下载CSV

其余七个国家也可从表3中得到与Bahrain相似的结论。

2.4 缺失值预测

在衡量SDGs指标3.2.1的实例中,通过8组实验,我们看到:

针对同一测试集,当采用传统的均值插补法时,误差较大,而使用TLM方法,通过MIC进行特征选择,进而采用回归模型SVR对缺失值进行预测时,其预测误差取得一定下降;而当采用样本迁移训练得到回归模型TLM-SVR,进而对缺失值进行预测时,其预测误差得到显著下降,比使用均值插补法和SVR模型要好。这是因为TLM方法通过MIC进行特征选择后在增强了特征的同时利用源域数据和目标域数据进行混合来训练预测模型,最终使得设计出的模型有更好的鲁棒性和自适应性,能够进一步较好地处理源域和目标域两者间的分布差异,从而增强模型的预测性能。

根据表3,可知针对Bahrain、Botswana、Brazil、Colombia、Costa Rica、Romania、Uruguay、El Salvador,作为其最佳源数据的国家分别为Finland、Australia、Costa Rica、Canada、Poland、Japan、Chile、Austria。现针对八个国家在SDGs指标3.2.1于1950-2016年间的缺失值,采用TLM-SVR方法对其进行预测。

图3-10分别表示采用TLM-SVR方法对八个国家中缺失值的预测结果。其中,橙色的线代表该变量可获取到的真实值,蓝色的线代表模型对缺失值的预测。

图3

新窗口打开|下载原图ZIP|生成PPT
图3Chile-Uruguay 缺失值预测

Fig.3The prediction of missing value in “Chile-Uruguay”



图4

新窗口打开|下载原图ZIP|生成PPT
图4Costa Rica-Brazil缺失值预测

Fig.4The prediction of missing value in “Costa Rica-Brazil”



图5

新窗口打开|下载原图ZIP|生成PPT
图5Finland-Bahrain缺失值预测

Fig.5The prediction of missing value in “Finland-Bahrain”



图6

新窗口打开|下载原图ZIP|生成PPT
图6Australia-Botswana缺失值预测

Fig.6The prediction of missing value in “Australia- Botswana”



图7

新窗口打开|下载原图ZIP|生成PPT
图7Canada-Colombia 缺失值预测

Fig.7The prediction of missing value in “Canada-Colombia”



图8

新窗口打开|下载原图ZIP|生成PPT
图8Poland-Costa Rica 缺失值预测

Fig.8The prediction of missing value in “Poland-Costa Rica”



图9

新窗口打开|下载原图ZIP|生成PPT
图9Japan-Romania 缺失值预测

Fig.9The prediction of missing value in “Japan-Romania”



图10

新窗口打开|下载原图ZIP|生成PPT
图10Austria-El Salvador 缺失值预测

Fig.10The prediction of missing value in “Austria-El Salvador ”



3 总结与讨论

SDGs指标数据缺失率过高的现状大大地影响了联合国对各国可持续发展目标实行过程的有效监测。本文提出了一种基于特征选择和迁移学习来对缺失值进行数据预测的方法(TLM)。首先利用非线性相关分析方法从收集到的大量统计数据中挖掘出与SDGs指标3.2.1中相关性较高的统计变量,接着以随机选择的8个国家作为目标域,通过实验验证了由TLM建立的TLM-SVR模型的预测性能比传统的均值填充和SVR回归预测效果更好,最终利用TLM-SVR模型对8个国家在1950-2016年间的缺失值进行了预测。

本文为相关领域的工作者提供了一种处理SDGs相关指标缺失问题的新思路。当然,影响SDGs指标3.2.1的波动因素众多,且随着时间的推移,各种可变因素可能随时发生变化,因此,如何进一步收集更多的统计变量,探索更多相关性分析方法来丰富SDGs指标3.2.1的特征,进而采

用TLM方法对缺失值进行更加精确的预测,是今后研究的重点方向。

利益冲突声明

所有作者声明不存在利益冲突关系。

参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子

United Nations Sustainable Development. What are the Sustainable Development Goals?
[EB/OL].[ 2020- 01- 08]. http://www.undp.org/content/undp/en/home/sustainable-development-goals.html.

URL [本文引用: 1]

郭华东 . 地球大数据支撑可持续发展目标报告
[R]. 北京: 中国科学院, 2019.

[本文引用: 1]

邓建新, 单路宝, 贺德强, 唐锐 . 缺失数据的处理方法及其发展趋势
[J]. 统计与决策, 2019,35(23):28-34.

[本文引用: 1]

Horton N J, Laird N M . Maximum likelihood analysis of generalized linear models with missing covariates
[J]. Statistical Methods in Medical Research, 1999,8(1):37-50.

[本文引用: 1]

乔丽华, 傅德印 . 缺失数据的多重插补方法
[J]. 统计教育, 2006 (12):4-7.

[本文引用: 1]

Richman M B, Trafalis T B, Adrianto I . Missing Data Imputation Through Machine Learning Algorithms
[M] // Artificial Intelligence Methods in the Environmental Sciences. Springer Netherlands, 2009.

[本文引用: 1]

Jerez J M, Molina I, García-Laencina P J , et al. Missing data imputation using statistical and machine learning methods in a real breast cancer problem
[J]. Artificial intelligence in medicine, 2010,50(2):105-115.

[本文引用: 1]

Sovilj D, Eirola E, Miche Y , et al. Extreme learning machine for missing data using multiple imputations
[J]. Neurocomputing, 2016,174:220-231.

[本文引用: 1]

Kumar S, Muhuri P K . A novel GDP prediction technique based on transfer learning using CO2 emission dataset
[J]. Applied Energy, 2019,253:113476.

[本文引用: 1]

Lertvittayakumjorn P, Wu C, Liu Y , et al. Exploratory analysis of big social data using MIC/MINE statistics
[C]//International Conference on Social Informatics. Springer, Cham, 2017: 513-526.

[本文引用: 1]

Burke L A, Hutchins H M . Training transfer: An integrative literature review
[J]. Human resource development review, 2007,6(3):263-296.

[本文引用: 1]

Pan SJ, Yang Q . A survey on transfer learning
IEEE Trans Knowl Data Eng 2010,22(10):1345-59. https://doi.org/10.1109/TKDE.2009.191.

URL [本文引用: 1]

[EB/OL].[2020-02-03]. https://unstats.un.org/sdgs/iaeg-sdgs/tier-classification/.
URL [本文引用: 1]

[EB/OL].[2020-02-03]. https://data.oecd.org/.
URL [本文引用: 1]

[EB/OL].[2020-02-03]. http://www.itu.int/en/ITU-D/Statistics/.
URL [本文引用: 1]

[EB/OL].[2020-02-03]. http://fsi.fundforpeace.org/.
URL [本文引用: 1]

[EB/OL].[2020-02-03]. http://data.worldbank.org/indicator.
URL [本文引用: 1]

相关话题/数据 指标 统计 测试 实验