摘要在微博系统中,寻找高质量微博用户进行关注是获取高质量信息的前提。该文研究高质量微博用户发现问题,即给定领域词查询,系统根据用户质量返回相关用户排序列表。将该问题分解成两个子问题: 一是领域相关用户的检索问题,二是微博用户排序问题。针对用户检索问题,提出了基于用户标签的用户表示方法以及基于维基百科的查询—用户相似度匹配方法,该方法作为ESA(explicit semantic analysis)的一个扩展应用,结果具有良好的可解释性,实验表明基于维基百科的效果要优于基于其他资源的检索效果。针对用户排序问题,提出了基于图的迭代排序方法UBRank,在计算用户质量时同时考虑用户发布消息的数量和消息的权威度,并且只选择含URL的消息来构建图,实验验证了该方法的高效性和优越性。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2605
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
面向领域的高质量微博用户发现
本站小编 Free考研考试/2022-01-02
相关话题/实验 质量 系统 计算 资源
面向情感聚类的文本相似度计算方法研究
摘要在文本情感分析时,使用无监督的聚类方法,可以有效节省人力和数据资源,但同时也面临聚类精度不高的问题。相似性是文本聚类的主要依据,该文从文本相似度计算的角度,针对情感聚类中文本—特征向量的高维和稀疏问题,以及对评论文本潜在情感因素的表示问题,提出一种基于子空间的文本语义相似度计算方法(RESS)。 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02向量模型和多源词汇分类体系相结合的词语相似性计算
摘要现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度上还不够完善的问题。该文提出一种向量模型与多源词汇分类体系相结合的词语相似性计 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02现代汉语形容词资源库的构建
摘要形容词与名词、动词构成汉语实词的主体组成部分,在句法上表现出对“名词”的极度依赖,其核心功能是在概念层面上,在认知注意机制的调适作用下对名词的特征进行“评价”。该文主要叙述汉语形容词知识库构建的相关工作。首先是考察已有的形容词的收词情况,并结合语言演变中新产生的形容词,构建了一个较为全面的形容词 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于共现词映射的中英韩跨语种文档相似度计算
摘要该文采用中英韩跨语种文本数据研究不同语种文档间相似度的计算方法。首先,通过共现词映射将某语种空间中的文档向量表示成另一语种空间中的文档向量;其次,利用潜在语义分析补充了不同语言间一词多义现象造成的向量缺失;最后,在具有等价语义信息的同一语种空间中计算了两个文档之间的余弦相似度。该文工作避开了外部 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Spark的大规模语义规则后向链推理系统
摘要近年来,语义网数据快速增长,适合于处理静态小规模语义数据的前向链语义推理技术暴露出了需对数据进行频繁更新等问题。面对大规模动态语义网数据,对数据更新不敏感的后向链语义推理开始成为新的研究热点。后向链语义推理由查询目标驱动,在查询时根据规则集推理出查询结果。后向链语义推理具有推理过程复杂、规则扩展 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02开放域上基于深度语义计算的复述模板获取方法
摘要利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合CNN和结构相似度计算的排比句识别及应用
摘要排比句具有结构紧凑、句式整齐、富有表现力等鲜明的特点,广泛应用在各种文体之中,在近几年语文高考的鉴赏类问题中也多有考察,但在自动识别方面的研究还鲜有涉及。该文依据排比句结构相似、内容相关的特点,以句子的词性、词语作为基本特征,设计了融合卷积神经网络和结构相似度计算的排比句识别方法。首先将词向量和 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02功能分发网络:基于容器的智能边缘计算平台
摘要:随着大数据、机器学习等技术的发展,网络流量与任务的计算量也随之快速增长.研究人员提出了内容分发网络(CDN)、边缘计算等平台技术,但CDN只能解决数据存储,而边缘计算存在着难以管理和不能跨集群进行资源调度等问题.容器化技术广泛应用在边缘计算场景中,但目前,边缘计算采取的容器编排策略普遍比较低效 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02构建新型高性能与高可用的键值数据库系统
摘要:近年来,写密集型应用程序越来越普遍.如何有效地处理这种工作负载,是数据库系统领域深入研究的方向之一.写操作开销主要由以下两个方面的因素构成:(1)硬件级别,即写操作引起的I/O,目前无法在短时间内消除这种开销;(2)软件开销,即修改内存数据拷贝以及构造日志记录造成的多次写操作.日志即数据(lo ...中科院软件研究所 本站小编 Free考研考试 2022-01-02领域驱动设计模式的收益与挑战:系统综述
摘要:背景:近年来,领域驱动设计(domaindrivendesign,简称DDD)作为一种软件设计方法在业界中逐渐流行起来,并形成了若干应用的固有范式,即领域驱动设计模式(domaindrivendesignpattern,简称DDDP).然而,目前软件开发社区却仍然对DDDP在软件项目中的作用缺 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02