摘要:签到日志记录了用户对于某类设施的使用情况,从中发现用户行为模式,在很多领域如精确广告投放、犯罪团伙发现等方面都具有非常广泛的应用价值.但是,发现过程却较为困难,主要因为:(1)日志数据体现为长时间序列且含有噪声,导致数据在高维空间分布较为稀疏,影响模式提取的准确性;(2)行为模式往往与不同的时间尺度相关;(3)多样的参数选择空间以及数据处理方式使得传统的机器学习方法很难获得可信且易于理解的行为分析结果.提出一种面向签到日志的用户行为模式交互探索的方法,该过程采用动态子空间策略,动态改变用于分析相似行为模式的时间片,从而减少人为设定参数对于分析结果的影响.方法集成了一个可视分析工具以支持该过程,利用该工具,分析人员可以实时了解方法每一步发现的模式,及时调整分析过程、直观理解和验证分析结论.包含了一个基于真实数据集的案例分析和一个来自不同领域专家的评审,其结果验证了方法的有效性.
Abstract:Check-in logs record how users access certain facilities. Discovering users' behavior patterns via logs has a wide range of applications, such as targeted advertising, criminal activity detection, etc. However, the discovery process is complex and challenging, due to the following reasons. (1) Log data is usually of long-term and contains noise, with sparse distribution of data in high-dimensional space. (2) Behavior patterns always relate to different time scales. (3) The variety of parameter selections and methods of data processing make traditional machine learning approaches difficult to obtain credible and understandable behavior analysis results. This study proposes an interactive approach to exploring behavior patterns from check-in logs. The process uses a dynamic subspace strategy which changes the time slices to analyze similar behavior patterns dynamically. The strategy reduces the effect of setting parameters artificially on the analytical results. The proposed approach integrates a visual analytical tool to support the process. Through visualization, analysts could understand the patterns found in each step-in real time, adjust the analysis process, comprehend and verify the results intuitively. The paper also presents a case study based on a real data set and a review of experts from different fields. The results confirm the effectiveness of the approach.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5824
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
面向签到日志的用户行为模式交互探索
本站小编 Free考研考试/2022-01-02
相关话题/过程 数据 空间 广告 序列
基于本体推理的终端用户数据查询构造方法
摘要:基于数据分析的智能决策对提升企业竞争力具有重要意义.根据待分析的问题,从内部信息系统的数据库中查询并获取与问题密切相关且信息完整的数据,是企业数据分析过程中的关键环节.基于本体的可视化数据查询系统为不掌握计算机专业技能的终端用户提供了高效获取数据的手段,近年来成为研究热点.然而现有工作仅采用简 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02软件开发活动数据的数据质量问题
摘要:问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02多媒体数据的知识关联与理解专题前言
摘要:Abstract:PDF全文下载地址:http://jos.org.cn/jos/article/pdf/5668 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分布式多数据流频繁伴随模式挖掘
摘要:多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02Platoon架构下VANETs车间通信过程及性能分析
摘要:智能车辆编组platoon的稳定运行需要车辆间实时可靠的信息传输来保证.针对应用专用短程通信(DSRC)技术来实现车载自组织网路(VANETs)车间通信的platoon架构,提出了一种车间通信网络性能的分析方法,分别对platoon组内智能车辆间通信和多个platoons组间通信的过程进行了分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02智能数据管理与分析技术专刊前言
摘要:数据管理与智能计算的深度融合已经成为大数据时代顺利前行的迫切需求.智能数据管理旨在“为数据增添智能”,是数据科学与技术的重要基石,更是大数据产业蓬勃发展的关键支撑.一方面,将新一代人工智能方法应用于先进数据管理技术,尝试探索和突破智能数据管理与分析的理论体系、技术方法及系统平台,已经成为数据管 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02大规模RDF图数据上高效率分布式查询处理
摘要:知识图谱是智能数据的主要表现形式,随着知识图谱领域的不断发展,大量的智能图数据以资源描述框架(resourcedescriptionframework,简称RDF)形式发布出来.RDF图上的SPARQL查询语义对应于图同态,是一个NP-完全问题.因此,如何使用分布式方法在大规模RDF图上有效回 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于时效规则的数据修复方法
摘要:数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02劣质数据上代价敏感决策树的建立
摘要:代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进行分类任务前,需要提前对数据进行劣质数据清洗.然而在实际应用中,由于数据 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02差分隐私的数据流关键模式挖掘方法
摘要:频繁模式挖掘是数据挖掘的重要任务之一,在数据流上挖掘简洁的关键模式比频繁模式更有优势,因为关键模式既可以避免频繁模式里包含的冗余信息以减少内存存储空间,又可以高效无损地提取频繁模式.但是由于相邻时间戳的统计信息可以作为背景知识增强攻击者的推理能力,所以从包含个人信息的数据流中挖掘关键模式比静态 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02