QUICK REVIEW
[論文レビュー] Survey of resampling techniques for improving classification performance in unbalanced datasets
Ajinkya More|arXiv (Cornell University)|Aug 22, 2016
Imbalanced Data Classification Techniques参考文献 10被引用数 179
ひとこと要約
本論文は不均衡分類におけるリサンプリング技術を検討し、合成データセットを用いて多数クラスの精度(precision)と少数クラスの再現率(recall)に関する観点で多くの手法を比較している。
ABSTRACT
A number of classification problems need to deal with data imbalance between classes. Often it is desired to have a high recall on the minority class while maintaining a high precision on the majority class. In this paper, we review a number of resampling techniques proposed in literature to handle unbalanced datasets and study their effect on classification performance.
研究の動機と目的
- 詐欺検知、商品分類、疾病診断などの領域におけるデータ不均衡問題を動機づけ定義する。
- 合成の二クラスデータセット上で、広範なリサンプリング技術を体系的に比較し、少数クラスの再現率と多数クラスの精度への影響を評価する。
- ロジスティック回帰などの一般的な分類器を用いた場合に、異なる手法が決定境界に与える影響を示す。
- 本研究で選択した指標の下で最良の性能を示す組み合わせとアンサンブルを強調する。
提案手法
- 不均衡を模倣するため、クラス重みが歪んだ合成の二クラスデータセットを用いる(r = |S|/|L| = 0.1)。
- 標準的なクロスバリデーションを用いてベースラインのロジスティック回帰を評価し、参照を確立する。
- クラス重み付き損失、アンダーサンプリング(ランダム、NearMiss の派生、CNN、ENN、Tomek)、オーバーサンプリング(ランダム、SMOTE、Borderline-SMOTE の派生)、および組み合わせ(SMOTE+ENN、SMOTE+Tomek)を適用する。
- リサンプリングとブースティングを組み合わせる EasyEnsemble、BalanceCascade などのアンサンブル手法をテストする。
- 70/30 の訓練/テスト分割と 5-分割のCVを用いて、パラメータ選択を行い、多数クラス(L)の精度と少数クラス(S)の再現率の観点で性能を報告する。)
実験結果
リサーチクエスチョン
- RQ1異なるリサンプリング戦略は、多数クラスの精度と少数クラスの再現率のトレードオフにどのように影響するか?
- RQ2合成不均衡データにおいて、高い多数クラスの精度を維持しつつ、最も良い少数クラスの再現率を生むリサンプリング手法または組み合わせはどれか?
- RQ3与えられた指標において、アンサンブル手法は単一モデルのリサンプリング手法を上回るか?
- RQ4重み付き損失を使用することと、リサンプリングだけを使用することの分類性能への影響は何か?
- RQ5この設定全体で一貫して優れた性能を示す特定の派生手法(例:Borderline-SMOTE、ENN、Tomek、SMOTE+ENN)はあるか?
主な発見
- リサンプリングなしのベースラインのロジスティック回帰は、少数クラス再現率が低く(0.12)、多数クラス精度は高い(0.90)。
- 重み付き損失は少数クラス再現率を改善し(0.89)、多数クラス精度も高い(0.98)。
- アンダーサンプリング法は一般に多数クラスの精度を低下させるが、いくつかの派生(NearMiss、CNN、ENN など)で少数クラス再現率を改善する可能性があるが、影響は様々。
- オーバーサンプリング法は、特に SMOTE 派生と組み合わせ(SMOTE+ENN、SMOTE+Tomek)で、少数クラスの再現率を顕著に改善し、多数クラスの精度を維持または高い水準を維持する。
- EasyEnsemble や BalanceCascade のようなアンサンブル法は、L に対して高い精度(約0.99)、少数クラスの再現率(約0.91)を達成する。
- 全体として、合成データセット上で、ロジスティック回帰と BalanceCascade を組み合わせた SMOTE+ENN が選択した指標に対して高い性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。