Skip to main content
QUICK REVIEW

[論文レビュー] Is "Better Data" Better than "Better Data Miners"? (On the Benefits of Tuning SMOTE for Defect Prediction)

Amritanshu Agrawal, Tim Menzies|arXiv (Cornell University)|May 10, 2017
Software Engineering Research参考文献 67被引用数 79
ひとこと要約

本論文は SMOTUNED を紹介します。 defect prediction のための SMOTE の自動チューニングで、データ前処理が分類器の選択よりも性能を上回ることがあり、チューニングされた SMOTE は 多くのデータセットで性能を著しく向上させることを示しています。

ABSTRACT

We report and fix an important systematic error in prior studies that ranked classifiers for software analytics. Those studies did not (a) assess classifiers on multiple criteria and they did not (b) study how variations in the data affect the results. Hence, this paper applies (a) multi-criteria tests while (b) fixing the weaker regions of the training data (using SMOTUNED, which is a self-tuning version of SMOTE). This approach leads to dramatically large increases in software defect predictions. When applied in a 5*5 cross-validation study for 3,681 JAVA classes (containing over a million lines of code) from open source systems, SMOTUNED increased AUC and recall by 60% and 20% respectively. These improvements are independent of the classifier used to predict for quality. Same kind of pattern (improvement) was observed when a comparative analysis of SMOTE and SMOTUNED was done against the most recent class imbalance technique. In conclusion, for software analytic tasks like defect prediction, (1) data pre-processing can be more important than classifier choice, (2) ranking studies are incomplete without such pre-processing, and (3) SMOTUNED is a promising candidate for pre-processing.

研究の動機と目的

  • データ前処理(SMOTE)のチューニングが defect prediction における分類器のランキングに影響を与えるかを特定する。
  • 大規模な欠陥データセット全体を対象に、SMOTUNED を SMOTE の自動パラメータチューニング手法として評価する。
  • データ前処理が欠陥予測タスクにおいて分類器の選択より優れているかを評価する。

提案手法

  • SMOTUNED の提案: 移動 DE ベースの自動チューナーで、SMOTE のパラメータ (k, m, r) を最適化して性能指標を最大化する。
  • オープンソースシステムの 3,681 の Java クラスに対して 5x5 クロスバリデーションを実施し、SMOTE、SMOTUNED、MAHAKIL(最近の不均衡技術)を比較する。
  • 複数の評価指標(AUC、recall、precision、false alarm)を用い、同一指標内および指標間の性能を評価する。
  • DE(differential evolution)探索を適用して SMOTE のパラメータ設定を進化させ、最良の設定を選択する。
  • テストデータを変更せず、SMOTE/SMOTUNED のみトレーニングデータをフィルタして予測利得を測定する。

実験結果

リサーチクエスチョン

  • RQ1RQ1:デフォルトの SMOTE パラメータはすべてのデータセットに適切か?
  • RQ2RQ2:データセットごとに SMOTE を調整すると性能に利得があるか?
  • RQ3RQ3:性能向上を考慮して、SMOTUNED の実行時間は許容可能か?
  • RQ4RQ4:SMOTUNED は Bennin らの最近の不均衡技術(MAHAKIL)とどう比較されるか?

主な発見

  • SMOTUNED は各データセットごとに異なる SMOTE パラメータを学習し、デフォルトの SMOTE から大きく乖離する。
  • SMOTUNED は劇的な性能向上をもたらし、SMOTE に対して最大で 60% の AUC 向上と 20% の recall 向上を達成。
  • SMOTUNED は2分未満で実行され、広く実用的である。
  • SMOTUNED は最近の不均衡技術 MAHAKIL を報告された比較で上回る。
  • 全体として、SMOTUNED を用いたデータ前処理は欠陥予測において分類器の選択より影響力が大きい場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。