摘要:随着开源软件的兴起及软件开发支撑工具的普及,Internet上积累了大量开放的软件开发活动数据,越来越多的实践者与研究者尝试从中获取提高软件开发效率和产品质量的洞察.为了提高数据分析的效率、方便分析结果的重现与对比,许多工作提出了构建与使用共享数据集.然而,现有软件开发活动数据集的构建过程可追溯性差、适用范围窄,对数据随时间、环境发生的变化欠考虑.这些不足直接威胁数据的质量及分析结果的有效性.针对该问题,提出一种层次化、多版本化的方法来构建与使用软件开发活动数据集.层次化是指在数据集中包括收集和后续处理所得的原始、中间和最终数据,建立数据集的可追溯性并扩展其适用范围.多版本化是指通过多种方式进行多次数据收集,使数据使用者能够观察到数据的变化,为数据质量及分析结果有效性的验证和提高创造条件.通过基于该方法构建的Mozilla问题追踪数据集进行示范,并验证了该方法能够帮助数据使用者高效地使用数据.
Abstract:With the fast development of open source software and wide application of development supporting tools, there have been a great many of open software development data on the Internet. To improve the software development efficiency and product quality, more and more practitioners and researchers attempt to obtain insights of software development from the data. To facilitate the data analyses and their reproduction and comparison, building and using shared datasets are proposed and practiced. However, the existing datasets are lack of traceability of dataset construction process, application scope, and consideration of data variation over time and with environment changes, which threat the data quality and analysis validity. To address these problems, an advanced approach is proposed for sharing and using the software development datasets. It constructs datasets with multiple levels and multiple versions. Through multiple levels, the datasets remain the raw data, intermediate data, and final data to possess data traceability. Meanwhile, by multiple versions, users can compare and observe the data variety to verify and improve data quality and analysis validity. Based on the previously constructed Mozilla issue tracking dataset, it is demonstrated that how to build and use multi-level and multi-version software development dataset and verified that the proposed approach can help users efficiently use the dataset.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5489
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
软件开发活动数据集的层次化、多版本化方法
本站小编 Free考研考试/2022-01-02
相关话题/数据 软件 质量 过程 工作
知识图谱数据管理研究综述
摘要:知识图谱是人工智能的重要基石.各领域大规模知识图谱的构建和发布对知识图谱数据管理提出了新的挑战.以数据模型的结构和操作要素为主线,对目前的知识图谱数据管理理论、方法、技术与系统进行研究综述.首先,介绍知识图谱数据模型,包括RDF图模型和属性图模型,介绍5种知识图谱查询语言,包括SPARQL、C ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于联盟链的物联网动态数据溯源机制
摘要:物联网动态数据安全保护的重点是拒绝非授权用户的篡改,实现对物联网动态数据操作的过程留痕和追踪溯源.为解决大量物联网设备产生的动态数据安全存储与共享问题,建立了物联网动态数据存储安全问题的数学模型,提出了用于实现操作实体多维授权与动态数据存储的双联盟链结构,设计了基于验证节点列表的共识算法,给出 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02应用区块链的数据访问控制与共享模型
摘要:数据已成为企业的重要资产.如何在企业内部对数据的访问权限进行有效控制、在企业之间安全共享数据一直是一个挑战.区块链中的分布式账本可以从某些方面解决上述问题,但是区块链所应用的非对称加密机制仅可进行一对一的安全传输,并不满足企业内部复杂的访问控制要求.提出一种应用区块链的数据访问控制与共享模型, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02Weibull分布引进故障的软件可靠性增长模型
摘要:软件调试是复杂过程,可能会受到很多种因素的影响,例如调试资源分配、调试工具的使用情况、调试技巧等.在软件调试过程中,当检测到的故障被去除时,新的故障可能会被引进.因此,研究故障引进的现象对建立高质量的软件可靠性增长模型具有重要意义.但是到目前为止,模拟故障引进过程仍是一个复杂和困难的问题.虽然 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02软件定义网络的测量方法研究
摘要:测量技术是状态监测、性能管理、安全防御等网络研究的基础,在网络研究领域具有重要地位.相较于传统网络,软件定义网络在标准性、开放性、透明性等方面的优势给网络测量研究带来了新的机遇.测量数据平面和测量控制平面的分离,启发了通用和灵活的测量架构的设计与实现;标准化的编程接口,使得测量任务可以快速地开 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02智能化软件新技术专刊前言
摘要:Abstract:PDF全文下载地址:http://jos.org.cn/jos/article/pdf/5736 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02即时软件缺陷预测研究进展
摘要:软件缺陷预测一直是软件工程研究中最活跃的领域之一,研究人员己经提出了大量的缺陷预测技术,根据预测粒度不同,主要包括模块级、文件级和变更级(change-level)缺陷预测.其中,变更级缺陷预测旨在于开发者提交代码时,对其引入的代码是否存在缺陷进行预测,因此又被称作即时(just-in-tim ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于代价极速学习机的软件缺陷报告分类方法
摘要:在所有的软件系统开发过程中,Bug的存在是不可避免的问题.对于软件系统的开发者来说,修复Bug最有利的工具就是Bug报告.但是人工识别Bug报告会给开发人员带来新的负担,因此,自动对Bug报告进行分类是一项很有必要的工作.基于此,提出用基于极速学习机的方法来对Bug报告进行分类.具体而言,主要 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02代码坏味对软件演化影响的实证研究
摘要:代码坏味是指程序设计中存在的不良设计模式或设计缺陷.坏味的存在,被认为会阻碍软件的演化与维护.近年来,研究人员致力于探究坏味产生的影响以及坏味与软件演化之间的关系.已有研究表明,代码坏味会随着软件的演化而不断发生变化.通常,软件的演化将涉及源文件的增加、修改与删除这3类具体操作,了解代码坏味与 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于图嵌入的软件项目源代码检索方法
摘要:源代码检索是软件工程领域的一项重要研究问题,其主要任务是检索和复用软件项目API(applicationprograminterface,应用程序接口).随着软件项目的规模越来越大、越来越复杂,当前,源代码检索一方面需要提高基于自然语言API查询的准确性,另一方面需要定位和展示目标API及其相 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02