QUICK REVIEW

[论文解读] Towards Cross-Project Defect Prediction with Imbalanced Feature Sets

Peng He, Bing Li|arXiv (Cornell University)|Nov 16, 2014

Software Engineering Research参考文献 35被引用 54

一句话总结

本文提出了一种基于分布特征的实例映射方法，用于处理特征集不平衡的跨项目缺陷预测（CPDP-IFS），通过将实例投影到度量分布指标的潜在空间中，实现在不同度量集项目间的缺陷预测。该方法在性能上可与常规CPDP相媲美，并显著提升低缺陷场景下的预测效果，尤其在结合混合CPDP-IFS模型时表现更优。

ABSTRACT

Cross-project defect prediction (CPDP) has been deemed as an emerging technology of software quality assurance, especially in new or inactive projects, and a few improved methods have been proposed to support better defect prediction. However, the regular CPDP always assumes that the features of training and test data are all identical. Hence, very little is known about whether the method for CPDP with imbalanced feature sets (CPDP-IFS) works well. Considering the diversity of defect data sets available on the Internet as well as the high cost of labeling data, to address the issue, in this paper we proposed a simple approach according to a distribution characteristic-based instance (object class) mapping, and demonstrated the validity of our method based on three public defect data sets (i.e., PROMISE, ReLink and AEEEM). Besides, the empirical results indicate that the hybrid model composed of CPDP and CPDP-IFS does improve the prediction performance of the regular CPDP to some extent.

研究动机与目标

解决训练项目与测试项目具有不平衡或非重叠特征集时的跨项目缺陷预测（CPDP）挑战。
探究在特征集不平衡的CPDP（CPDP-IFS）是否能实现与常规CPDP相当或更优的性能。
通过复用具有不同度量集项目的缺陷数据，减少数据收集与标注的成本和冗余。
构建结合CPDP与CPDP-IFS的混合模型，以提升预测性能，特别是在数据稀缺的场景下。
在具有多样化度量集的公开缺陷数据集上，验证所提方法的可行性和有效性。

提出的方法

该方法将源项目与目标项目的实例映射到由其度量值分布指标（如均值、方差）定义的潜在空间中，而非直接使用原始度量值。
假设缺陷实例表现出异常的分布特征（如高方差或偏态均值），这些特征可作为缺陷易感性的指示。
通过基于分布的特征，将不同项目的实例投影到同一潜在空间，实现在原始度量集不同的情况下仍可进行CPDP。
在变换后的空间中使用逻辑回归进行分类，保持与标准CPDP流程的兼容性。
该方法无需特征对齐或选择，而是依赖于统计分布相似性来实现跨项目知识迁移。
通过结合常规CPDP与CPDP-IFS的预测结果，构建混合模型以提升整体性能。

实验结果

研究问题

RQ1当训练项目与测试项目具有不同的软件度量集（即特征集不平衡）时，是否能有效进行跨项目缺陷预测？
RQ2所提出的基于分布特征的实例映射方法在该设置下是否能达到与常规CPDP相当的预测性能？
RQ3在何种场景下，CPDP-IFS相较于常规CPDP有显著改进，特别是在缺陷比率较低的情况下？
RQ4结合CPDP与CPDP-IFS的混合模型是否能提升整体预测性能，优于单独使用任一方法？
RQ5该方法在具有不同度量集和项目特征的多样化公开缺陷数据集上是否具有鲁棒性？

主要发现

所提出的CPDP-IFS方法在三个公开缺陷数据集（PROMISE、ReLink、AEEEM）上实现了与常规CPDP相当的预测性能，证明了其可行性。
CPDP与CPDP-IFS的混合模型在缺陷比率较低的场景下显著提升了预测性能，尤其在这些情况下大幅提高了F-measure。
对于Xalan项目，使用CPDP-mix_pure混合模型时，DPR（缺陷预测比率）达到0.86，接近理想的1值。
该方法能有效处理无重叠度量集的问题，无需特征对齐或选择，显著降低了数据收集与标注的开销。
Wilcoxon符号秩检验与Cliff’s delta结果证实了性能提升的统计显著性，尤其在低缺陷场景下更为明显。
该方法在不同规模和度量集的项目中均表现出鲁棒性，表明其在真实软件工程场景中具有良好的泛化潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。