摘要:软件缺陷预测一直是软件工程研究中最活跃的领域之一,研究人员己经提出了大量的缺陷预测技术,根据预测粒度不同,主要包括模块级、文件级和变更级(change-level)缺陷预测.其中,变更级缺陷预测旨在于开发者提交代码时,对其引入的代码是否存在缺陷进行预测,因此又被称作即时(just-in-time)缺陷预测.近年来,即时缺陷预测技术由于其即时性、细粒度等优势,成为缺陷预测领域的研究热点,取得了一系列研究成果;同时也在数据标注、特征提取、模型评估等环节面临诸多挑战,迫切需要更先进、统一的理论指导和技术支撑.鉴于此,从即时缺陷预测技术的数据标注、特征提取和模型评估等方面对近年来即时缺陷预测研究进展进行梳理和总结.主要内容包括:(1)归类并梳理了即时缺陷预测模型构建中数据标注常用方法及其优缺点;(2)对即时缺陷预测的特征类型和计算方法进行了详细分类和总结;(3)总结并归类现有模型构建技术;(4)总结了模型评估中使用的实验验证方法与性能评估指标;(5)归纳出了即时缺陷预测技术的关键问题;(6)最后展望了即时缺陷预测的未来发展.
Abstract:Software defect prediction is always one of the most active research areas in software engineering. Researchers have proposed a lot of defect prediction techniques. These techniques consist of module-level, file-level, and change-level defect prediction according to the granularity. Change-level defect prediction can predict the defect-proneness of changes when they are initially submitted. Hence, such a technique is referred to as just-in-time defect prediction. Recently, just-in-time defect prediction becomes the hot area in defect prediction because of its timely manner and fine granularity. There are a lot of achievements in this area and there are also many challenges in data labeling, feature extraction, and model evaluation. More advanced and unified theoretic and technical guidelines are needed to enhance just-in-time defect prediction. Therefore, in this study, a literature review for prior just-in-time defect prediction studies is presented in three folds, data labeling, feature extraction, and model evaluation. In summary, the contributions of this study are:(1) The data labeling methods and their advantages and disadvantages are concluded; (2) The feature categories and computing methods are concluded and classified; (3) The modeling techniques are concluded and classified; (4) The model validation and performance measures in model evaluation are concluded; (5) The current problems in this area are highlighted; and (6) The trends of Just-in-Time defect prediction are concluded.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5713
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
即时软件缺陷预测研究进展
本站小编 Free考研考试/2022-01-02
相关话题/技术 数据 代码 实验 软件工程
代码坏味对软件演化影响的实证研究
摘要:代码坏味是指程序设计中存在的不良设计模式或设计缺陷.坏味的存在,被认为会阻碍软件的演化与维护.近年来,研究人员致力于探究坏味产生的影响以及坏味与软件演化之间的关系.已有研究表明,代码坏味会随着软件的演化而不断发生变化.通常,软件的演化将涉及源文件的增加、修改与删除这3类具体操作,了解代码坏味与 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于图嵌入的软件项目源代码检索方法
摘要:源代码检索是软件工程领域的一项重要研究问题,其主要任务是检索和复用软件项目API(applicationprograminterface,应用程序接口).随着软件项目的规模越来越大、越来越复杂,当前,源代码检索一方面需要提高基于自然语言API查询的准确性,另一方面需要定位和展示目标API及其相 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02企业级海量代码的检索与管理技术
摘要:在大型IT企业中,尤其像Google或者百度,代码搜索已是软件开发过程中不可或缺且频繁的活动,其通过借鉴或复用已有代码,加速开发过程的速度.多年以来,已有大量的研究人员关注代码搜索,且设计出很多优秀的工具.但是已有的研究和工具主要是在小规模或者编程语言单一的代码数据集上,没有从企业实际搜索需求 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于本体推理的终端用户数据查询构造方法
摘要:基于数据分析的智能决策对提升企业竞争力具有重要意义.根据待分析的问题,从内部信息系统的数据库中查询并获取与问题密切相关且信息完整的数据,是企业数据分析过程中的关键环节.基于本体的可视化数据查询系统为不掌握计算机专业技能的终端用户提供了高效获取数据的手段,近年来成为研究热点.然而现有工作仅采用简 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02软件开发活动数据的数据质量问题
摘要:问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02多媒体数据的知识关联与理解专题前言
摘要:Abstract:PDF全文下载地址:http://jos.org.cn/jos/article/pdf/5668 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02代码克隆检测研究进展
摘要:代码克隆(codeclone),是指存在于代码库中两个及以上相同或者相似的源代码片段.代码克隆相关问题是软件工程领域研究的重要课题.代码克隆是软件开发中的常见现象,它能够提高效率,产生一定的正面效益.但是研究表明,代码克隆也会对软件系统的开发、维护产生负面的影响,包括降低软件稳定性,造成代码库 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分布式多数据流频繁伴随模式挖掘
摘要:多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02性能非对称多核处理器下异构感知调度技术
摘要:为了满足应用程序的多样化需求,异构多核处理器出现并逐渐进入市场,其中的处理核心(core)具有不同的微架构或者指令集架构(ISA),为应用提供多样化特性支持,比如指令级并行(ILP)、内存级并行(MLP),这些核心协同工作满足整个计算系统的优化目标,比如高性能、低功耗或者良好的能效.然而,目前 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02智能数据管理与分析技术专刊前言
摘要:数据管理与智能计算的深度融合已经成为大数据时代顺利前行的迫切需求.智能数据管理旨在“为数据增添智能”,是数据科学与技术的重要基石,更是大数据产业蓬勃发展的关键支撑.一方面,将新一代人工智能方法应用于先进数据管理技术,尝试探索和突破智能数据管理与分析的理论体系、技术方法及系统平台,已经成为数据管 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02