QUICK REVIEW

[論文レビュー] A systematic mapping study on cross-project defect prediction

Steffen Herbold|arXiv (Cornell University)|May 18, 2017

Software Engineering Research参考文献 8被引用数 25

ひとこと要約

本系統的マッピング研究では、2006年から2015年までの49件のクロスプロジェクト欠陥予測（CPDP）研究を分析し、一般的な技術、データセット、分類器、性能指標、ベースラインを特定した。研究では、データ、評価指標、再現性の欠如に起因する重大な不整合が明らかになり、研究間の比較を困難にし、CPDP研究における標準化された報告の必要性を浮き彫りにした。

ABSTRACT

Cross-Project-Defect Prediction as a sub-topic of defect prediction in general has become a popular topic in research. In this article, we present a systematic mapping study with the focus on CPDP, for which we found 50 publications. We summarize the approaches presented by each publication and discuss the case study setups and results. We discovered a great amount of heterogeneity in the way case studies are conducted, because of differences in the data sets, classifiers, performance metrics, and baseline comparisons used. Due to this, we could not compare the results of our review on a qualitative basis, i.e., determine which approaches perform best for CPDP.

研究の動機と目的

2006年から2015年までのクロスプロジェクト欠陥予測（CPDP）分野における最新の包括的概要を提供すること。
CPDP研究で用いられた技術、データセット、分類器、性能指標、ベースラインを特定および分類すること。
CPDP研究の比較可能性を評価し、メタアナリシスの障壁を、メソドロジーや多様性に起因して特定すること。
文献からの実証的発見に基づき、Turhan（2012）のクロスプロジェクト手法の分類法を拡張すること。
提案された手法の再現性の欠如と、CPDP研究における外部妥当性への脅かしを浮き彫りにすること。

提案手法

KitchenhamとCharters（2007）の指針に従い、系統的マッピング研究を実施した。対象は英語で書かれた査読済み論文に限定した。
Google Scholarを用いて、『クロスプロジェクト欠陥予測』や『クロス会社フォールト予測』などのキーワードを対象に、関連研究を特定した。
含む・除外基準を適用した。含む基準として、CPDPに特化した事例研究、理論的考察、またはツール開発を含むものとした。除外基準として、WPDP専用または査読済みでない研究を除外した。
50件の研究を特定したが、そのうち49件を完全に分析した。各研究から、アプローチ、分類器、データセット、性能指標、ベースラインに関するデータを収集した。
質的統合を実施し、研究間でのトレンド、不整合性、報告品質の傾向を分析した。
CPDP研究における観察されたメソドロジカルパターンに基づき、Turhan（2012）の分類法を拡張した。

実験結果

リサーチクエスチョン

RQ1CPDPにすでに検討されたアプローチは何か？
RQ2CPDP研究で最も人気のあった分類器は何か？
RQ3CPDP研究で使用されたデータセットは何か？
RQ4CPDPを評価するために使用された性能指標は何か？
RQ5提案されたアプローチは、どのベースラインと比較されたか？

主な発見

CPDPに関する49件の研究が特定され、分析された。研究期間は2006年から2015年までである。
Turhanら（2009）のk-NN関連性フィルタが最も頻繁に使用されたベースラインであり、9件の研究に登場した。
最も人気のあった分類器はk-Nearest Neighbors（k-NN）で、15件の研究で使用された。次に、ロジスティック回帰（10件）が続いた。
性能評価は極めて不一致であった。12種類の異なる指標が使用され、F-measureと精度が最も一般的であったが、AUCとコスト感受性指標はそれぞれ2回ずつしか使用されていなかった。
49件のアプローチのうち、わずか10件が、その後の研究で再びベースラインとして再利用された。これは、CPDP研究における再現性の著しい欠如を示している。
データセット、性能指標、学習設定の違いにより、研究間の比較可能性は著しく制限されている。同じデータセットを完全に使用した研究はたった6件にとどまり、異なるデータセット間で性能が10%以上も変動している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。