Skip to main content
QUICK REVIEW

[论文解读] A systematic mapping study on cross-project defect prediction

Steffen Herbold|arXiv (Cornell University)|May 18, 2017
Software Engineering Research参考文献 8被引用 25
一句话总结

本篇系统映射研究分析了2006至2015年间49项跨项目缺陷预测(CPDP)研究,识别出主流技术、数据集、分类器、性能度量标准及基线。研究揭示了在数据、评估度量标准以及可重复性方面存在重大不一致,削弱了跨研究比较的可行性,并凸显了在CPDP研究中推行标准化报告的必要性。

ABSTRACT

Cross-Project-Defect Prediction as a sub-topic of defect prediction in general has become a popular topic in research. In this article, we present a systematic mapping study with the focus on CPDP, for which we found 50 publications. We summarize the approaches presented by each publication and discuss the case study setups and results. We discovered a great amount of heterogeneity in the way case studies are conducted, because of differences in the data sets, classifiers, performance metrics, and baseline comparisons used. Due to this, we could not compare the results of our review on a qualitative basis, i.e., determine which approaches perform best for CPDP.

研究动机与目标

  • 提供2006至2015年期间跨项目缺陷预测(CPDP)研究领域现状的全面、最新概述。
  • 识别并分类CPDP研究中使用的技术、数据集、分类器、性能度量标准及基线。
  • 评估CPDP研究的可比性,并识别由于方法学异质性导致的元分析障碍。
  • 基于文献中的实证发现,扩展Turhan(2012)对跨项目方法的分类体系。
  • 突出所提出方法缺乏可重复性的问题,及其对CPDP研究外部效度构成的威胁。

提出的方法

  • 遵循Kitchenham和Charters(2007)的指导方针,开展系统映射研究,聚焦于经过同行评审的英文出版物。
  • 通过Google Scholar识别相关研究,使用如“cross-project defect prediction”和“cross-company fault prediction”等有针对性的搜索词。
  • 应用纳入与排除标准:纳入标准要求研究为CPDP案例研究、理论讨论或聚焦于CPDP的工具开发;排除标准适用于仅涉及WPDP或非同行评审的研究。
  • 从50项识别出的研究中(49项完整分析)收集关于方法、分类器、数据集、性能度量标准及基线的数据。
  • 进行定性综合分析,以评估研究中的趋势、不一致性和报告质量。
  • 基于CPDP研究中观察到的方法学模式,扩展Turhan(2012)的分类体系。

实验结果

研究问题

  • RQ1哪些方法已被用于CPDP?
  • RQ2哪些分类器在CPDP研究中最受欢迎?
  • RQ3哪些数据集在CPDP研究中被使用?
  • RQ4哪些性能度量标准被用于评估CPDP?
  • RQ5所提出的方法与哪些基线进行了比较?

主要发现

  • 共识别并分析了49项CPDP研究,时间跨度为2006年至2015年。
  • Turhan等人(2009)提出的k-NN相关性过滤器是使用最频繁的基线,在9项研究中出现。
  • 最受欢迎的分类器是k-最近邻(k-NN),在15项研究中使用,其次是逻辑回归(10项研究)。
  • 性能评估存在高度不一致性:共使用了12种不同的度量标准,其中F-measure和精确率最为常见,而AUC和成本敏感度量标准仅各使用了两次。
  • 在49种方法中,仅有10种在后续研究中被重新用作基线,表明CPDP研究中存在显著的可重复性缺失。
  • 由于数据集、性能度量标准及训练配置的差异,研究间的可比性受到严重限制:仅有六项研究使用了完全相同的数据集,且不同数据集间性能差异超过10%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。