[论文解读] The Impact of Correlated Metrics on Defect Models
本研究调查了相关软件度量对缺陷模型解释的影响,发现相关度量会扭曲9种解释技术中的度量排序。去除相关度量可显著提高排序的一致性,仅对ANOVA Type-I例外,同时对模型性能影响可忽略不计,因此建议研究人员消除相关度量,并避免在缺陷建模研究中使用ANOVA Type-I。
Defect models are analytical models that are used to build empirical theories that are related to software quality. Prior studies often derive knowledge from such models using interpretation techniques, such as ANOVA Type-I. Recent work raises concerns that prior studies rarely remove correlated metrics when constructing such models. Such correlated metrics may impact the interpretation of models. Yet, the impact of correlated metrics in such models has not been investigated. In this paper, we set out to investigate the impact of correlated metrics, and the benefits and costs of removing correlated metrics on defect models. Through a case study of 15 publicly-available defect datasets, we find that (1) correlated metrics impact the ranking of the highest ranked metric for all of the 9 studied model interpretation techniques. On the other hand, removing correlated metrics (2) improves the consistency of the highest ranked metric regardless of how a model is specified for all of the studied interpretation techniques (except for ANOVA Type-I); and (3) negligibly impacts the performance and stability of defect models. Thus, researchers must (1) mitigate (e.g., remove) correlated metrics prior to constructing a defect model; and (2) avoid using ANOVA Type-I even if all correlated metrics are removed.
研究动机与目标
- 调查相关软件度量如何影响软件工程中缺陷模型的解释。
- 评估去除相关度量对模型一致性、性能和稳定性的影响及其收益与成本。
- 评估在存在相关度量时,广泛使用的解释技术(尤其是ANOVA Type-I)的可靠性。
- 为研究人员提供可操作的指导,以提升实证软件质量研究的有效性。
提出的方法
- 采用变量聚类(VarClus)和方差膨胀因子(VIF)检测并去除15个公开可用缺陷数据集中的相关度量。
- 使用缓解后(无相关度量)和未缓解的数据集构建逻辑回归和随机森林模型。
- 应用9种模型解释技术:ANOVA Type-I、ANOVA Type-II(Wald、似然比、F、卡方)、以及标准化/非标准化的基尼重要性和置换重要性。
- 通过AUC、F-measure和Matthew相关系数(MCC)比较模型性能,并评估其在不同数据集上的稳定性。
- 采用案例研究方法,基于涵盖开源与专有系统的15个缺陷数据集,评估结果的泛化能力。
实验结果
研究问题
- RQ1RQ1:在不同解释技术下,相关度量如何影响缺陷模型中度量的排序?
- RQ2RQ2:去除相关度量对度量排序一致性有何益处?
- RQ3RQ3:去除相关度量对缺陷模型的性能和稳定性有何影响?
- RQ4RQ4:当存在或移除相关度量时,不同模型解释技术(如ANOVA Type-I与Type-II)的行为如何变化?
主要发现
- 相关度量显著扭曲了所有9种解释技术中最高排名度量的排序,包括ANOVA Type-I、Type-II、基尼重要性和置换重要性。
- 去除相关度量可提高所有解释技术中最高排名度量的一致性,但ANOVA Type-I仍对度量顺序敏感。
- 通过AUC、F-measure和MCC衡量的缺陷模型性能,受去除相关度量的影响可忽略不计,表明对模型稳定性的影响极小。
- 当去除相关度量后,度量排序的一致性显著增强,表明软件质量研究中的实证发现更具可靠性和可重复性。
- ANOVA Type-I被发现从根本上不可靠,即使在去除相关度量后仍不可靠,应避免使用,而应选择更稳健的替代方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。