基于小数据的在线用户兴趣长程演化研究
外文标题:Study of The Long-Range Evolution of Online Human-Interest Based on Small Data
文献类型:期刊
作者:李勇[1]
机构:[1]中国人民大学信息学院
[2]西北师范大学计算机科学与工程学院
[3]新疆财经大学统计与信息学院
[4]中国互联网络信息中心互联网基础技术开放实验室
通讯作者:Meng, Xiaofeng
年:2015
期刊名称:计算机研究与发展
卷:52
期:4
页码范围:779-788
增刊:增刊
收录情况:EI(20151900826680)
所属部门:信息学院
语言:中文
ISSN:1000-1239
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjyjyfz201504002.aspx
DOI:10.7544/issn1000-1239.2015.20148336
人气指数:74
浏览次数:74
基金:国家自然科学基金项目(61379050,91224008,71261025);国家“八六三”高技术研究发展计划基金项目(2013AA013204);高等学校博士学科点专项科研基金项目(20130004130001);中国人民大学科学研究基金项目
关键词:小数据;块熵;超熵;兴趣演化;预测增益
摘要:网络大数据中与Web用户行为相关的数据,例如在线点击数据和通讯记录等,为人们深度挖掘和定量分析人类兴趣动力学带来了机遇,这些在线行为数据被称为大数据时代的“小数据”,有助于揭示许多复杂的人类社会与经济现象.Web用户行为建模时常见的前提假设就是人的行为符合M arkov过程,用户下一行为仅依赖于当前行为,与过去的历史行为无关.然而,在线用户行为是一个复杂过程,常常依赖于人的兴趣,对于人类兴趣动力学的本质规律目前知之甚少.利用中国互联网络信息中心提供的30000多名在线用户行为记录数据,基于块熵理论对在线用户行为进行分类研究,通过信息论分析方法,结合熵增曲线的离散导数和积分理论,分析在线用户点击行为的随机性和记忆性特征.研究表明,与常见的假设不同,Web用户的行为并不是一个简单的M arkov过程,而是一个符合幂率的非周期无限长程记忆过程;进一步还发现,用户在线连续点击7个兴趣点,其行为的平均预测增益就可达到95.3%以上,可为大数据时代在线用户兴趣精准预测提供理论指导.
作者其他论文
差分隐私保护下一种精确挖掘top-k频繁模式方法.张啸剑;王淼;孟小峰.计算机研究与发展.2014,51(1),104-114.
大规模图数据可达性索引技术:现状与展望.富丽贞;孟小峰.计算机研究与发展.2015,52(1),116-129.
海量高维向量的并行Top-k连接查询.马友忠;慈祥;孟小峰.计算机学报.2015,38(1),86-98.
云数据管理索引技术研究.马友忠;孟小峰.软件学报.2015,26(1),145-166.
一种闪存敏感的多级缓存管理方法?.王江涛;赖文豫;孟小峰.软件学报.2014,2575-2586.