摘要:软件问答社区是软件开发者通过问答方式进行技术交流的网络平台.近年来,软件问答社区积累了大量用户讨论的技术问答内容.一些研究者对Stack Overflow等英文问答社区进行主题分析研究,但是缺少对于中文软件问答社区的分析.通过对中文软件回答社区开展主题分析研究,不仅可以指导开发者更好地了解技术动向,而且可以帮助管理者改进社区、吸引更多用户参与."开源中国"是中国最大的技术社区之一.对"开源中国"开展了开发者问题主题分析研究.收集"开源中国"的92 383个开发者问题,采用隐狄利克雷分配模型的主题分析方法,分析开发者问题的主题分布、热度趋势、回答情况和关键技术热度等.发现:(1)开发者讨论的技术主题分为前端开发、后端开发、数据库、操作系统、通用技术和其他6个类别.其中,前端开发讨论占比最大.(2)后端开发下的主题中用户的关注重点从传统的项目部署、服务器配置转移到较新的分布式系统等主题.(3)数据展示主题的零回答问题比例最高,数据类型主题下的零回答问题比例最低.(4)在技术学习主题下,用户对于Java的讨论明显多于对Python的讨论.
Abstract:Programming question and answer website is a network platform where software developers can exchange technical knowledge by posting and answering questions. With the development of Internet and growth in the number of software developers, programming question and answer websites accumulate extensive discussion contents of software engineering knowledge. Researchers have applied topic analysis on English question and answer websites in recent years, yet there are few similar studies on Chinese programming question and answer websites. Analyzing these contents can help developers know more about the trends of techniques. It also benefits website administrator to improve the forum for better user experience, etc. This study applies latent Dirichlet allocation (LDA) to automatically cluster the main topics in 92 383 questions on OSCHINA. Then, several analyses are applied to these topics, including trend analysis, difficulty analysis, and keyword analysis. Several findings are as follow:(1) Topics concluded from user discussion can be divided into 6 categories, including front-end development, back-end development, databases, operating systems, general techniques, and others. Within those categories, front-end development contains the most question posts. (2) Using trend analysis, it is found that in back-end development, developers are paying more attention to more up-to-date and advanced topics (distributed systems, system design & Web interfaces) rather than basic topics (project deployment, server configuration). (3) It is also found that data presentation is the most difficult topic, as it has the highest ratio of questions which are never answered while its popularity is above average. (4) The trend of different specific techniques is analyzed in one topic. For instance, the popularity of Java in the technique learning topic is obviously higher than the popularity of Python.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5987
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
中文软件问答社区主题分析研究
本站小编 Free考研考试/2022-01-02
相关话题/社区 技术 软件 比例 中文
面向众包数据清洗的主动学习技术
摘要:传统方法多数采用机器学习算法对数据进行清洗.这些方法虽然能够解决部分问题,但存在计算难度大、缺乏充足的知识等局限性.近年来,随着众包平台的兴起,越来越多的研究将众包引入数据清洗过程,通过众包来提供机器学习所需要的知识.由于众包的有偿性,研究如何将机器学习算法与众包有效且低成本结合在一起是必要的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02人工智能赋能的数据管理技术研究
摘要:大数据时代,数据规模庞大、数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.人工智能赋能的数据库系统通过对数据分布、查询负载、性能表现等特征进行建模和学习,自动地进行查询负载预测、数据库配置参数调优、数据分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于中间层的可扩展学习索引技术
摘要:在大数据与云计算时代,数据访问速度是衡量大规模存储系统性能的一个重要指标.因此,如何设计一种轻量、高效的数据索引结构,从而满足系统高吞吐率、低内存占用的需求,是当前数据库领域的研究热点之一.Kraska等人提出使用机器学习模型代替传统的B树索引,并在真实数据集上取得了不错的效果,但其提出的模型 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向数据特征的内存跳表优化技术
摘要:跳表作为数据库中被广泛采用的索引技术,优点在于可以达到类似折半查找的复杂度O(log(n)).但是标准跳表算法中,结点的层数是通过随机算法生成的,这就导致跳表的性能是不稳定的.在极端情况下,查找复杂度会退化到O(n).这是因为经典跳表结构没有结合数据的特征.一个稳定的跳表结构应该充分考虑数据的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02集成偏好的高维多目标最优软件产品选择算法
摘要:在基于搜索的软件工程研究领域,高维多目标最优软件产品选择问题是当前的一个研究热点.既往工作主要采用后验方式(即先搜索再选择)处理软件工程师或终端用户的偏好.与此不同,将用户偏好集成于优化过程,提出了一种新算法以定向搜索用户最感兴趣的软件产品.在算法中,运用权向量表达用户偏好,采用成就标量化函数 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种基于领域适配的跨项目软件缺陷预测方法
摘要:软件缺陷预测旨在帮助软件开发人员在早期发现和定位软件部件可能存在的潜在缺陷,以达到优化测试资源分配和提高软件产品质量的目的.跨项目缺陷预测在已有项目的缺陷数据集上训练模型,去预测新的项目中的缺陷,但其效果往往不理想,其主要原因在于,采样自不同项目的样本数据集,其概率分布特性存在较大差异,由此对 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02对抗样本生成技术综述
摘要:如今,深度学习已被广泛应用于图像分类和图像识别的问题中,取得了令人满意的实际效果,成为许多人工智能应用的关键所在.在对于模型准确率的不断探究中,研究人员在近期提出了“对抗样本”这一概念.通过在原有样本中添加微小扰动的方法,成功地大幅度降低原有分类深度模型的准确率,实现了对于深度学习的对抗目的, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02代码知识图谱构建及智能化软件开发方法研究
摘要:智能化软件开发正在经历从简单的代码检索到语义赋能的代码自动生成的转变,传统的语义表达方式无法有效地支撑人、机器和代码之间的语义交互,探索机器可理解的语义表达机制迫在眉睫.首先指出了代码知识图谱是实现智能化软件开发的基础,进而分析了大数据时代智能化软件开发的新特点以及基于代码知识图谱进行智能化软 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02HDFS 存储和优化技术研究综述
摘要:HDFS(Hadoopdistributedfilesystem)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02软件定义网络中的异常流量检测研究进展
摘要:软件定义网络(softwaredefinednetworking,简称SDN)是一种新型的网络架构.SDN将控制层从数据层分离并开放网络接口,以实现网络集中控制并提高网络的可扩展性和编程性.但是SDN也面临诸多的网络安全威胁.异常流量检测技术可以保护网络安全,防御恶意流量攻击.对SDN异常流量 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02