摘要:社交关系的数据挖掘一直是大图数据研究领域中的热门问题.图聚类算法如SCAN (structural clustering algorithm for network)虽然可以迅速地从海量图数据中获得关系紧密的社区结构,但这类社区往往只表示了社交对象的聚集,无法反馈对象间的真实社交关系,如家庭成员、同事、同学等.要获取对象间真实的社交关系,需要更多维度地挖掘现实中社交对象间复杂的交互关系.对象间的交互维度很多,例如通话、见面、微信、电子邮件等,而传统SCAN等聚类算法仅能够挖掘单维度的交互数据.在研究社交对象间的多维社交关系图数据与传统图结构聚类算法的基础上,提出了一种有效的子空间聚类算法SCA (subspace cluster algorithm),对多维度下子空间的图结构聚类进行研究,目的是探索如何通过图数据挖掘发现对象间真实的社交关系.SCA算法遵循自底向上的原则,能够发现社交图数据中所有子空间的聚类集.为提升SCA的运行速度,利用其子空间聚类的单调性进行了性能优化,进而提出了剪枝算法SCA+.最后进行了大规模的性能测试实验以及真实数据的案例研究,其结果验证了算法的效率和效用.
Abstract:Social relationship mining is a hot topic in the area of massive graph analysis. Graph clustering algorithms such as SCAN (structural clustering algorithm for networks) can quickly discover the communities from the massive graph data. However, relationships in these communities fail to reflect the ‘real’ social information such as family, colleagues and classmates. In reality, social data is very complex, and there are many types of interaction among each individual, such as calling, meeting, chatting in WeChat, and sending emails. However, traditional SCAN algorithm can only handle single dimensional graph data. Based on the study of multidimensional social graph data and traditional clustering algorithms, this paper first proposes an efficient subspace clustering algorithm named SCA by mining multi-dimensional clusters in subspaces as a mean to explore real social relationships. SCA follows the bottom-up principle and can discover the set of clusters from the social graph data in all dimensions. To improve the efficiency of SCA, the paper also develops a pruning algorithm called SCA+ based on the monotonicity of subspace clustering. Extensive experiments on several real-world multi-dimensional graph data demonstrate the efficiency and effectiveness of the proposed algorithms.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5454
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
多维图结构聚类的社交关系挖掘算法
本站小编 Free考研考试/2022-01-02
相关话题/数据 空间 结构 社区 实验
基于社区的动态网络节点介数中心度更新算法
摘要:随着互联网技术的迅猛发展,社会网络呈现出爆炸增长的趋势,传统的静态网络分析方法越来越难以达到令人满意的效果.于是,对网络进行动态分析就成为社会网数据管理领域的一个研究热点.节点介数中心度衡量的是一个节点对图中其他点对最短路径的控制能力,有利于挖掘社会网络中的重要节点.在图结构频繁变化的场合,若 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02应对倾斜数据流在线连接方法
摘要:并行环境下的分布式连接处理要求制定划分策略以减少状态迁移和通信开销.相对于数据库管理系统而言,分布式数据流管理系统中的在线θ连接操作需要更高的计算成本和内存资源.基于完全二部图的连接模型可支持分布式数据流的连接操作.因为连接操作的每个关系仅存放于二部图模型的一侧处理单元,无需复制数据,且处理单 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种解决连续空间问题的真实在线自然梯度AC算法
摘要:策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架下,提出了真实在线增量式自然梯度AC(trueonli ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分布式数据库中一致性与可用性的关系
摘要:随着各类应用在数据量和业务量上的扩展,单机数据库系统越发难以应对现实需求.分布式数据库能够根据业务的需求动态地扩容,因此逐步开始受到应用的青睐.近年来,分布式数据库产品层出不穷,并在互联网应用中被大量投入使用.然而,分布式数据库的系统复杂度前所未有.为了让系统可用,设计者需要在多种属性中作合理 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02区块链与可信数据管理:问题与方法
摘要:作为支撑比特币实现无中心高可信的账本管理的技术,区块链在金融领域得到了广泛关注.区块链实现了不完全可信环境中的可信数据管理,具有去中心化、防篡改、不可抵赖、强一致和完整性等特性,但同时也存在高延迟和低吞吐率的性能问题.在互联网技术发展、新型应用层出不穷的大背景下,借鉴区块链在数字加密货币应用中 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02物联网环境下数据转发模型研究
摘要:随着5G移动通信技术、软件定义网络、命名数据网、移动边缘计算或雾计算等新兴技术或方法的出现及深入研究,物联网应用得到进一步升华.在这种应用场景多样化、服务质量高要求、参与对象普及化的环境下,隶属物联网子范畴的传统无线传感器网络数据转发模型已经不能完全适应这种时代需求,更加适合物联网应用的数据转 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于MODIS数据地表反照率时空变化特征及影响因子研究
摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02基于MODIS数据地表反照率时空变化特征及影响因子研究
摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02中国动植物自然物候长序列数据集研制
摘要摘要:中国气象档案馆馆藏1981年以来的木本、草本、虫鸟两栖动物自然物候观测资料,是现有中国境内覆盖范围最广、持续时间最长的自然物候观测数据。通过对数字化档案与电子报文进行数据清洗与质量控制,研制出1981~2018年中国动植物自然物候长序列数据集,分为木本、草本、虫鸟两栖动物3个子集。其中草本 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02中国动植物自然物候长序列数据集研制
摘要摘要:中国气象档案馆馆藏1981年以来的木本、草本、虫鸟两栖动物自然物候观测资料,是现有中国境内覆盖范围最广、持续时间最长的自然物候观测数据。通过对数字化档案与电子报文进行数据清洗与质量控制,研制出1981~2018年中国动植物自然物候长序列数据集,分为木本、草本、虫鸟两栖动物3个子集。其中草本 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02