QUICK REVIEW

[論文レビュー] Synthetic Minority Over-sampling TEchnique(SMOTE) for Predicting Software Build Outcomes

Russel Pears, Jacqui Finlay|arXiv (Cornell University)|Jul 9, 2014

Software Engineering Research参考文献 29被引用数 25

ひとこと要約

本稿では、コードメトリクスからのソフトウェアビルド結果予測におけるクラス不均衡を解消するためにSMOTEを提案し、意思決定木を用いたデータストリームアプローチを採用している。約900件のビルドインスタンスを処理した後、分類精度は80%に達したが、合成データ生成にもかかわらず、クラス分布バイアスは依然として残存した。

ABSTRACT

In this research we use a data stream approach to mining data and construct Decision Tree models that predict software build outcomes in terms of software metrics that are derived from source code used in the software construction process. The rationale for using the data stream approach was to track the evolution of the prediction model over time as builds are incrementally constructed from previous versions either to remedy errors or to enhance functionality. As the volume of data available for mining from the software repository that we used was limited, we synthesized new data instances through the application of the SMOTE oversampling algorithm. The results indicate that a small number of the available metrics have significance for prediction software build outcomes. It is observed that classification accuracy steadily improves after approximately 900 instances of builds have been fed to the classifier. At the end of the data streaming process classification accuracies of 80% were achieved, though some bias arises due to the distribution of data across the two classes over time.

研究の動機と目的

進化するソフトウェア開発文脈において、ソースコードから得られるコードメトリクスを用いてソフトウェアビルド結果を予測すること。
合成データ生成にSMOTEを適用することで、ソフトウェアビルド結果予測における不均衡データの課題に対処すること。
意思決定木を用いたデータストリームマイニングアプローチの有効性を、ビルド結果のリアルタイム予測に評価すること。
新しいビルドデータが段階的に分類器に供給されるにつれて、モデルのパフォーマンスがどのように変化するかを分析すること。
合成オーバーサンプリングがソフトウェア欠陊予測における分類精度とバイアスに与える影響を評価すること。

提案手法

ソフトウェアリポジトリからのビルドデータに対して、段階的に意思決定木モデルを学習するデータストリームマイニングアプローチが用いられる。
ビルド結果（例：成功／失敗）を予測するための入力特徴量として、ソースコードからソフトウェアメトリクスが抽出される。
少数クラスのための合成インスタンスを生成するためにSMOTE（Synthetic Minority Over-sampling Technique）が適用され、データ不均衡が緩和される。
モデルは段階的に学習され、各新しいビルドインスタンスが進化する分類器に寄与する。
学習の進行具合とモデルの安定性を評価するために、時間経過に伴う分類精度のモニタリングが行われる。
標準的な分類指標を用いてパフォーマンスが評価され、クラス分布バイアスに特に注意が払われる。

実験結果

リサーチクエスチョン

RQ1ビルドデータに対して段階的に学習させた意思決定木分類器の、ソフトウェアビルド結果予測におけるパフォーマンスは、時間経過とともにどのように変化するか？
RQ2不均衡なソフトウェアビルド結果データの文脈において、SMOTEは分類精度をどの程度向上させるか？
RQ3段階的学習の文脈において、どのソフトウェアメトリクスがビルド結果の予測に最も有効か？
RQ4データ不均衡はモデルバイアスにどのような影響を及ぼし、SMOTEはそのバイアスを効果的に低減できるか？
RQ5このアプローチを用いて安定的かつ正確な予測を達成するために、必要な最小ビルドインスタンス数はどの程度か？

主な発見

約900件のビルドインスタンスを処理した後、分類精度は着実に向上し、ピークで80%に達した。
利用可能なソフトウェアメトリクスのわずかなサブセットが、ビルド結果の予測に顕著な予測要因であった。
SMOTEの適用にもかかわらず、2つの結果クラスにわたるデータの時間的分布の影響により、モデルの予測バイアスが一部残存した。
データストリームアプローチにより、継続的なモデルの最適化が可能となり、段階的学習によるソフトウェアビルド予測の実現可能性が示された。
SMOTEは少数クラスのデータ不足を効果的に緩和し、初期学習段階におけるモデルの頑健性を向上させた。
結果から、合成オーバーサンプリングを併用することで、限られた歴史的データでもビルド結果の予測モデリングが可能であると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。