数据挖掘方法应用于调查数据的抽样权重问题--基于放回比例抽样的再抽样方法
外文标题:The Study on Handling Sampling Weights Associated with the Survey Data When Applying Data Mining Methods——Based on the Method of Re-sampling with PPWWR
文献类型:期刊
作者:谢佳斌[1]
机构:中国人民大学统计学院;中国台湾辅仁大学统计信息学系、应用统计所
年:2009
期刊名称:统计研究
卷:26
期:4
页码范围:101-104
增刊:增刊
收录情况:中文核心期刊要目总览
所属部门:统计学院
语言:中文
ISSN:1002-4565
链接地址:http://d.g.wanfangdata.com.cn/Periodical_tongjyj200904016.aspx
DOI:10.3969/j.issn.1002-4565.2009.04.016
人气指数:8
浏览次数:8
关键词:调查数据;抽样权重;数据挖掘;PPWWR再抽样
摘要:在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题.本文提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PPWWR再抽样,来实现"事后"自加权设计.实现"事后"自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析.随后,基于2007中国公民科学素质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本量问题,发现max(n,5%N)是一个比较合适的样本量.这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴.
作者其他论文
解决小域估计的一种新思路:样本外推.胡丹丹;金勇进;艾小青.调研世界.2014,44-46.
对我国人口普查数据质量评估的若干思考.陈培培;金勇进.现代管理科学.2014,3-5.
缺失数据插补方法探讨--基于最近邻插补法和关联规则法.于力超;金勇进;王俊.统计与信息论坛.2015,35-39,40.
抽样调查中的权数问题研究.金勇进;张喆.统计研究.2014,31(9),79-84.
变量选择方法及其在健康食品市场研究中的应用探究.李扬;朱建锋;谢邦昌.统计与信息论坛.2013,28(10),17-24.