QUICK REVIEW

[論文レビュー] Towards Cross-Project Defect Prediction with Imbalanced Feature Sets

Peng He, Bing Li|arXiv (Cornell University)|Nov 16, 2014

Software Engineering Research参考文献 35被引用数 54

ひとこと要約

本稿では、不均衡な特徴集合を有するクロスプロジェクト欠陥予測（CPDP-IFS）のための分布特性に基づくインスタンスマッピング手法を提案する。この手法により、メトリクスが異なるプロジェクト間での欠陥予測が可能となり、メトリクス分布指標の潜在空間にインスタンスを投影することで実現される。本手法は通常のCPDPと同等の性能を達成し、特に欠陥が少ない状況での予測性能を顕著に向上させ、ハイブリッドCPDP-IFSモデルと組み合わせることでさらなる向上が得られる。

ABSTRACT

Cross-project defect prediction (CPDP) has been deemed as an emerging technology of software quality assurance, especially in new or inactive projects, and a few improved methods have been proposed to support better defect prediction. However, the regular CPDP always assumes that the features of training and test data are all identical. Hence, very little is known about whether the method for CPDP with imbalanced feature sets (CPDP-IFS) works well. Considering the diversity of defect data sets available on the Internet as well as the high cost of labeling data, to address the issue, in this paper we proposed a simple approach according to a distribution characteristic-based instance (object class) mapping, and demonstrated the validity of our method based on three public defect data sets (i.e., PROMISE, ReLink and AEEEM). Besides, the empirical results indicate that the hybrid model composed of CPDP and CPDP-IFS does improve the prediction performance of the regular CPDP to some extent.

研究の動機と目的

トレーニングプロジェクトとテストプロジェクトの特徴集合が不均衡または重複のない状況におけるクロスプロジェクト欠陥予測（CPDP）の課題に対処すること。
不均衡な特徴集合を有するCPDP（CPDP-IFS）が、通常のCPDPと同等またはより優れた性能を達成できるかどうかを調査すること。
異なるメトリクスセットを持つプロジェクトからの欠陥データの再利用を可能にすることで、データ収集およびアノテーションのコストと重複を低減すること。
CPDPとCPDP-IFSを統合したハイブリッドモデルを構築し、特にデータが乏しい状況での予測性能を向上させること。
多様なメトリクスセットを有する公開欠陥データセットを用いて、提案手法の実現可能性と有効性を検証すること。

提案手法

本手法は、インスタンスを元のメトリクスそのものではなく、メトリクス値の分布指標（例：平均、分散）で定義される潜在空間にマップする。
欠陥を有するインスタンスは異常な分布特性（例：高い分散、非対称な平均）を示すと仮定し、これにより欠陥の兆候としての指標が得られる。
異なるプロジェクトからのインスタンスが、これらの分布ベースの特徴を用いて共通の潜在空間に投影され、元のメトリクスセットが異なっていてもCPDPが可能になる。
変換された空間でロジスティック回帰を用いて分類を行い、標準的なCPDPパイプラインとの互換性を維持する。
特徴の整合化や選択を必要とせず、代わりに統計的分布の類似性に依存して知識をプロジェクト間で移転する。
通常のCPDPとCPDP-IFSの予測結果を統合することでハイブリッドモデルを構築し、全体の性能を向上させる。

実験結果

リサーチクエスチョン

RQ1トレーニングプロジェクトとテストプロジェクトのソフトウェアメトリクスのセットが異なる（すなわち、不均衡な特徴集合を有する）状況でも、クロスプロジェクト欠陥予測を効果的に行うことができるか？
RQ2提案された分布特性に基づくインスタンスマッピング手法が、このような状況下でも通常のCPDPと同等の予測性能を達成できるか？
RQ3CPDP-IFSは、欠陥率が低い状況において、通常のCPDPと比較して顕著な改善をもたらすのはどのような状況か？
RQ4CPDPとCPDP-IFSを統合したハイブリッドモデルは、単独の手法と比較して予測性能を向上させることができるか？
RQ5多様な公開欠陥データセット（異なるメトリクスセットおよびプロジェクト特性を有する）において、提案手法の頑健性はどの程度か？

主な発見

提案されたCPDP-IFS手法は、3つの公開欠陥データセット（PROMISE、ReLink、AEEEM）において、通常のCPDPと同等の予測性能を達成しており、実現可能性が裏付けられた。
CPDPとCPDP-IFSを統合したハイブリッドモデルは、欠陥率が低い状況での予測性能を顕著に向上させ、特にその状況下でのF-measureの向上が見られた。
Xalanプロジェクトでは、CPDP-mix_pureハイブリッドモデルを用いることでDPR（欠陥予測比）が0.86に達し、理想値1に近づいた。
本手法は、特徴の整合化や選択を必要とせず、重複するメトリクスのないセットに対しても効果的に対応でき、データ収集およびアノテーションのオーバーヘッドを低減した。
ウィルコクソン符号順位検定およびクライフ・デルタによる検定により、特に欠陥が少ない状況での性能向上が統計的に有意であると確認された。
本手法は、サイズやメトリクスセットが異なるプロジェクトに対しても頑健であることが示され、実世界のソフトウェア工学の文脈における一般化可能性が示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。