[論文レビュー] The Impact of Class Rebalancing Techniques on the Performance and Interpretation of Defect Prediction Models
本研究では、101のソフトウェアデータセットを対象に、オーバーサンプリング、アンダーサンプリング、SMOTE、ROSEの4つのクラス再バランス手法が欠陥予測モデルに与える影響を調査した。再バランス処理は再現率を著しく向上させるが、モデルの解釈可能性を損なうことが判明した。一方、AUCには影響がなく、研究者たちはAUCを標準的なパフォーマンス指標として推奨するとともに、モデルの行動可能なインサイトを導出する際には再バランス処理を避けるべきだと警告している。
Defect prediction models that are trained on class imbalanced datasets (i.e., the proportion of defective and clean modules is not equally represented) are highly susceptible to produce inaccurate prediction models. Prior research compares the impact of class rebalancing techniques on the performance of defect prediction models. Prior research efforts arrive at contradictory conclusions due to the use of different choice of datasets, classification techniques, and performance measures. Such contradictory conclusions make it hard to derive practical guidelines for whether class rebalancing techniques should be applied in the context of defect prediction models. In this paper, we investigate the impact of 4 popularly-used class rebalancing techniques on 10 commonly-used performance measures and the interpretation of defect prediction models. We also construct statistical models to better understand in which experimental design settings that class rebalancing techniques are beneficial for defect prediction models. Through a case study of 101 datasets that span across proprietary and open-source systems, we recommend that class rebalancing techniques are necessary when quality assurance teams wish to increase the completeness of identifying software defects (i.e., Recall). However, class rebalancing techniques should be avoided when interpreting defect prediction models. We also find that class rebalancing techniques do not impact the AUC measure. Hence, AUC should be used as a standard measure when comparing defect prediction models.
研究の動機と目的
- 大規模な実験的調査を通じて、先行研究におけるクラス再バランスに関する矛盾する結果を解消すること。
- 多様なデータセットと分類器を対象に、再バランス処理が欠陥予測モデルのパフォーマンスおよび解釈可能性に与える影響を検討すること。
- 再バランス処理が測定可能な利点や欠点をもたらす実験的条件を同定すること。
- 実務家および研究者に対して、いつ、どのように再バランス手法を適用すべきかを示す実用的ガイドラインを提供すること。
提案手法
- 本研究では、オープンソースおよびプロプライエタリシステムから得た101の欠陥予測データセットを対象に、オーバーサンプリング、アンダーサンプリング、SMOTE、ROSEの4つの再バランス手法を評価した。
- 欠陥予測モデルは、ランダムフォレスト、ロジスティック回帰、ナイーブベイズ、AVNNet、C5.0、xGBTree、GBMの7つの分類アルゴリズムを用いて学習させた。
- パフォーマンスは10の指標で測定された:3つのしきい値に依存しない指標(例:AUC)と7つのしきい値に依存する指標(例:適合率、再現率、F-measure)。
- 実験設定(例:データセットの不均衡度、次元数)とモデルのパフォーマンス/解釈可能性の関係を分析するための統計モデルを構築した。
- SMOTEのパラメータkをk=5およびk=14でテストし、結果に顕著な差異は認められなかった。
- 解釈可能性は、ベースラインモデルと再バランス済みモデルの上位特徴を比較することで評価し、コンセプトドリフトの有無を検出した。
実験結果
リサーチクエスチョン
- RQ1異なるクラス再バランス手法が、さまざまなデータセットと分類器における欠陥予測モデルのパフォーマンスにどのように影響を与えるか?
- RQ2特に特徴量の重要度のシフトという観点から、クラス再バランス処理が欠陥予測モデルの解釈性に及ぼす影響はどの程度か?
- RQ3再バランス処理に感受性を示すパフォーマンス指標は何か。一方で、不変のままである指標(特にAUC)は何か?
- RQ4どの実験的条件下(例:データセットの不均衡度、次元数)で再バランス処理が再現率の向上に最も効果的か?
- RQ5分類アルゴリズムの選択が、パフォーマンスおよび解釈性に対する再バランス処理の影響にどのように作用するか?
主な発見
- 欠陥率が45%〜55%の欠陥予測データセットはわずかに8%にとどまり、現実のソフトウェアシステムでは広範なクラス不均衡が見られる。
- AUC指標は、4つの再バランス手法のいずれに対しても顕著に影響を受けないことが判明した。これは一般の機械学習分野の先行研究とは対照的である。
- クラス再バランス手法は再現率を最も向上させるが、同時に適合率を最も低下させるため、完全性と正確性のトレードオフが生じている。
- 最も顕著なパフォーマンス向上が見られたのは、極度に不均衡で次元数が低いデータセットに対して、ロジスティック回帰とアンダーサンプリングを組み合わせた場合である。
- 解釈可能性は顕著に低下した:ニューラルネットワークを用いた再バランス済みモデルでは、ベースラインモデルの上位特徴の23%〜34%しか重複しなかった。ロジスティック回帰では55%〜62%の重複率であった。
- ランダムフォレストモデルでは、再バランス済みモデルの上位特徴の68%〜71%が、ベースラインモデルの上位ランクに含まれていなかった。これは顕著なコンセプトドリフトを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。