摘要:随着互联网技术的迅猛发展,基于开发者社区的提问-回答经验交流方式已成为众多开发人员解决软件开发、维护过程中所遇问题的重要手段之一.如何为开发者社区中的提问者及时、准确地推荐问题回答者,是具有实际需求的重要问题.通过对Stack Overflow和Github两个具有代表性的主流开发者社区相关数据的收集和分析,观察到影响上述问题推荐准确性和反馈及时性的3个现象:(1)用户标签自定现象,即开发者社区中,用户的标签信息是由用户自己主观定义所得,而非系统根据用户的历史行为客观标定;(2)不对称活跃现象,即用户可能在某个或某些开发者社区中活跃,但在其他社区中并不具有同等活跃程度,甚至不活跃;(3)关键词集封闭现象,即开发者社区中的问题回答者推荐仅依据问题文本中的关键词,而未考虑其他语义相关的关键词.针对以上问题,融合开发者社区的用户信息,通过分析用户与用户之间的互动行为,建立跨社区的开发者网络,并提出一种基于重启随机游走的算法更新用户标签.进一步地,通过使用Taxonomy来扩充问题的查询关键词范围,在此基础上,协同用户矩阵进行更加准确的推荐,并增大了推荐时有效用户的范围.收集的实验数据包括170万个有效主题、累计40万用户以及117个标签.实验结果证实,所提出的算法具有较好的F-measure和NDCG度量.特别是在冷门标签的推荐中,与未采用该方法的推荐算法相比,基于NDCG度量的推荐准确率至少可提高2倍,部分甚至可高达4倍.
Abstract:Internet technology is developing rapidly. The developer community's question-answering based experience communication method has become one of the important means for many developers to solve problems encountered in software development and maintenance. How to promptly and accurately recommend a question responder to a questioner in the developer community is an important issue with practical needs. Through the collection and analysis of the data of two representative mainstream developers in Stack Overflow and Github, three phenomena are observed that affect the timeliness and accuracy of the above recommended questions:(1) User label customization phenomenon. In the developer community, the user's tag information is subjectively defined by the user, rather than the system is objectively calibrated according to the user's historical behavior; (2) Asymmetric activity. The user may be active in one or some developer communities, however, it is not equally active or even inactive in other communities; (3) Keyword set closure phenomenon. That is the question answerer in the developer community recommends only based on the keywords in the question text, but does not consider other semantic related key words. In view of the above problems, the user information of the developer community is integrated, the interaction between users and users is analyzed, a cross-community developer network is established, and an algorithm based on restart random walk is proposed to update user tags. Further, by using Taxonomy to expand the query keyword range of the problem, on the basis of this, the user matrix is more accurately recommended, and the range of effective users at the time of recommendation is increased. Finally, the experimental results of F-measure and NDCG are good, which can effectively improve the efficiency and accuracy of problem recommendation.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5733
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于多开发者社区的用户推荐算法
本站小编 Free考研考试/2022-01-02
相关话题/社区 推荐 数据 实验 网络
多媒体数据的知识关联与理解专题前言
摘要:Abstract:PDF全文下载地址:http://jos.org.cn/jos/article/pdf/5668 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于区域敏感生成对抗网络的自动上妆算法
摘要:自动上妆旨在通过计算机算法实现人脸妆容的编辑与合成,隶属于人脸图像分析领域.其在互动娱乐应用、图像视频编辑、辅助人脸识别等多方面起着重要作用.然而作为人脸编辑任务,其仍难以在保证图像的编辑结果自然、真实的同时又很好地满足编辑需求,并且仍有难以精确控制编辑区域、图像编辑前后一致性差、图像质量不够 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于小波域的深度残差网络图像超分辨率算法
摘要:单幅图像超分辨率(SISR)是指从一张低分辨率图像重建高分辨率图像.传统的神经网络方法通常在图像的空间域进行超分辨率重构,但这些方法常在重构过程中忽略重要的细节.鉴于小波变换能够将图像内容的"粗略"和"细节"特征进行分离,提出一种基于小波域的深度残差网络(DRWSR).不同于其他传统的卷积神经 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于节点向量表达的复杂网络社团划分算法
摘要:社团结构划分对复杂网络研究在理论和实践上都非常重要.借鉴分布式词向量理论,提出一种基于节点向量表达的复杂网络社团划分方法(CDNEV).为了构建网络节点的分布式向量,提出启发式随机游走模型.利用节点启发式随机游走得到的节点序列作为上下文,采用SkipGram模型学习节点的分布式向量.选择局部度 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于多维灰色模型及神经网络的销售预测
摘要:在时尚销售领域,如服饰、手袋、钱包等,准确的销售预测对企业非常重要.然而由于客户的需求受诸多因素的影响,要做到准确的销售预测一直是一个富有挑战性的问题.基于改进的多维灰色模型(GM(1,N))和神经网络(ANN)提出一种混合模型来预测销量,其中多维灰色模型对销售数据建模,神经网络对误差进行校正 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分布式多数据流频繁伴随模式挖掘
摘要:多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02社交网络下的不确定图隐私保护算法
摘要:社交网络平台的快速普及使得社交网络中的个人隐私泄露问题愈发受到用户的关心,传统的数据隐私保护方法无法满足用户数量巨大、关系复杂的社交网络隐私保护需求.图修改技术是针对社交网络数据的隐私保护所提出的一系列隐私保护措施,其中不确定图是将确定图转化为概率图的一种隐私保护方法.主要研究了不确定图中边概 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02IEEE 802.11 DCF机制下的异构网络业务分析模型
摘要:在众多的IEEE802.11DCF机制分析模型中,集中分析了同质业务(例如数据包到达速率相同)网络的性能,仅有少量的文献聚焦于异构混合业务(饱和与非饱和工作模式同时存在)网络,而在目前的研究中,对网络的不饱和性及退避时隙冻结等问题归纳分析得并不准确.结合M/G/1排队模型,考虑了DCF机制的退 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02智能数据管理与分析技术专刊前言
摘要:数据管理与智能计算的深度融合已经成为大数据时代顺利前行的迫切需求.智能数据管理旨在“为数据增添智能”,是数据科学与技术的重要基石,更是大数据产业蓬勃发展的关键支撑.一方面,将新一代人工智能方法应用于先进数据管理技术,尝试探索和突破智能数据管理与分析的理论体系、技术方法及系统平台,已经成为数据管 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02大规模RDF图数据上高效率分布式查询处理
摘要:知识图谱是智能数据的主要表现形式,随着知识图谱领域的不断发展,大量的智能图数据以资源描述框架(resourcedescriptionframework,简称RDF)形式发布出来.RDF图上的SPARQL查询语义对应于图同态,是一个NP-完全问题.因此,如何使用分布式方法在大规模RDF图上有效回 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02