QUICK REVIEW

[論文レビュー] A Survey of Predictive Modelling under Imbalanced Distributions

Paula Branco, Luı́s Torgo|arXiv (Cornell University)|May 7, 2015

Imbalanced Data Classification Techniques参考文献 162被引用数 173

ひとこと要約

本論文は、不均衡なデータ分布下における予測モデリングの包括的サーベイを提示し、分類および回帰の両タスクに対して統一されたフレームワークを提案する。データ前処理、目的特化学習、および後処理の3つの分類に基づく新しい分類法を導入するとともに、評価指標や小さな分離集合やノイズといった関連課題を強調し、現実世界の稀だが重要な出来事の取り扱いに基礎的となる参照資料を提供する。

ABSTRACT

Many real world data mining applications involve obtaining predictive models using data sets with strongly imbalanced distributions of the target variable. Frequently, the least common values of this target variable are associated with events that are highly relevant for end users (e.g. fraud detection, unusual returns on stock markets, anticipation of catastrophes, etc.). Moreover, the events may have different costs and benefits, which when associated with the rarity of some of them on the available training data creates serious problems to predictive modelling techniques. This paper presents a survey of existing techniques for handling these important applications of predictive analytics. Although most of the existing work addresses classification tasks (nominal target variables), we also describe methods designed to handle similar problems within regression tasks (numeric target variables). In this survey we discuss the main challenges raised by imbalanced distributions, describe the main approaches to these problems, propose a taxonomy of these methods and refer to some related problems within predictive modelling.

研究の動機と目的

不正検出や医療診断のような、稀だが高インパクトな出来事が見られる分野における予測モデリングの重要な課題に対処すること。
分類および回帰タスクの両方に適用可能な、不均衡なデータ分布下での一般化された問題定義を提示すること。
データ不均衡に対処するための既存手法をサーベイし、分類する。具体的には、データ前処理、学習アルゴリズム、および後処理戦略を含む。
回帰タスクを含めた既存のサーベイを拡張し、後処理手法を統合したより広範な分類法を提案すること。
小さな分離集合、ノイズ、高次元性といった関連問題を検討し、クラス不均衡との相互作用を明らかにすること。

提案手法

ターゲット変数の値に重要度重みを割り当てる関数 φ(Y) を用いて、不均衡なドメインを定義し、稀（高重要度）と一般的（低重要度）なケースを区別する。
訓練データを D_R（関連するケース）と D_N（通常のケース）に分割し、|D_R| ≪ |D_N| となるように統一的な問題定式化を提案する。
既存のアプローチを主に3つのグループに分類する：データ前処理（例：リサンプリング）、目的特化学習（例：コスト感受性アルゴリズム）、後処理（例：閾値調整）。
稀クラスのパフォーマンスに偏った性能指標（例：F-measure、G-mean、精度-再現率曲線下の面積）を導入し、レビューする。
クラス不均衡と、クラスノイズ、小さな分離集合、高次元性といった関連問題との相互作用を分析する。
文献の体系的レビューを用いて包括的な分類法を構築し、特に回帰タスクにおける研究のギャップを同定する。

実験結果

リサーチクエスチョン

RQ1分類および回帰タスクの両方において、不均衡なデータ分布の問題を形式的に定義する方法は何か？
RQ2稀だが重要なターゲット値のパフォーマンスを評価する上で、最も効果的な評価指標は何か？
RQ3データ前処理、学習アルゴリズムの変更、および後処理戦略は、不均衡なデータを扱う上でどのように比較されるか？
RQ4クラス不均衡と小さな分離集合やデータノイズといった関連問題との関係は何か？
RQ5なぜ回帰タスクが不均衡研究においてあまり取り上げられていないのか。また、既存の解決策はどのように適合可能か？

主な発見

クラス不均衡は、ノイズや低カバレッジと組み合わさると、小さな分離集合に誤差が集中しやすくなる。
バランスの取れたデータセットでさえも、誤差は小さな分離集合に集中しがちだが、クラス不均衡がそれを悪化させる。
閾値調整のような後処理戦略は、稀クラスの検出を向上させるのに有効であり、これまでのサーベイではあまり検討されていなかった。
ノイズは、不均衡そのものよりもモデルパフォーマンスに大きな影響を及ぼし、両者の相互作用は重要な要因である。
高次元の不均衡データセットでは、特徴選択が不可欠であり、ノイズを低減し、モデルが関連するパターンに集中できるようにする。
提案された分類法は、後処理を統合することで、不均衡な予測モデリングを扱うより包括的なフレームワークを提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。