大数据背景下非概率抽样的统计推断问题
外文标题:Statistical Inference Problems of Non-probability Sampling under the Background of Big Data
文献类型:期刊
作者:金勇进[1]
机构:[1][刘展]中国人民大学.
[2][金勇进]中国人民大学.应用统计科学研究中心
年:2016
期刊名称:统计研究
卷:33
期:3
页码范围:11-17
增刊:增刊
收录情况:中文核心期刊要目总览
语言:中文
ISSN:1002-4565
链接地址:http://d.g.wanfangdata.com.cn/Periodical_tongjyj201603002.aspx
关键词:大数据;非概率抽样;统计推断
摘要:利用大数据进行抽样,很多情况下由于抽样框的构造比较困难,使得抽取的样本属于非概率样本,传统的抽样推断理论难以应用到非概率样本中,如何解决非概率抽样的统计推断问题,是大数据背景下抽样调查面临的严重挑战.本文提出了解决非概率抽样统计推断问题的基本思路:一是抽样方法,可以考虑基于样本匹配的样本选择、链接跟踪抽样方法等,使得到的非概率样本近似于概率样本,从而可采用概率样本的统计推断理论;二是权数的构造与调整,可以考虑基于伪设计、模型和倾向得分等方法得到类似于概率样本的基础权数;三是估计,可以考虑基于伪设计、模型和贝叶斯的混合概率估计.最后,本文以基于样本匹配的样本选择为例探讨了具体解决方法.
作者其他论文
解决小域估计的一种新思路:样本外推.胡丹丹;金勇进;艾小青.调研世界.2014,44-46.
对我国人口普查数据质量评估的若干思考.陈培培;金勇进.现代管理科学.2014,3-5.
缺失数据插补方法探讨--基于最近邻插补法和关联规则法.于力超;金勇进;王俊.统计与信息论坛.2015,35-39,40.
抽样调查中的权数问题研究.金勇进;张喆.统计研究.2014,31(9),79-84.
基于因子分析和DEA模型的科技创新投入产出效率研究--以河南省为例.刘展;屈聪.河南科学.2014,2132-2137.