QUICK REVIEW

[論文レビュー] Superensemble Classifier for Improving Predictions in Imbalanced Datasets

Tanujit Chakraborty, Ashis Kumar Chakraborty|arXiv (Cornell University)|Oct 25, 2018

Imbalanced Data Classification Techniques参考文献 39被引用数 10

ひとこと要約

本稿では、データサンプリングを伴わずに、不均衡データセットにおける予測性能を向上させるため、Hellinger Distance Decision Trees (HDDT) と Radial Basis Function Networks (RBFN) を組み合わせた新規の分布フリーなスーパーエンsemble分類器を提案する。この手法は、HDDT のクラス不均衡に対するロバスト性と、RBFN の高速収束性および普遍一致性を活用し、最小限のハイパーパrameterチューニングで最先端の性能を達成するとともに、多数の実世界データセットにおいて解釈可能性が向上する。

ABSTRACT

Learning from an imbalanced dataset is a tricky proposition. Because these datasets are biased towards one class, most existing classifiers tend not to perform well on minority class examples. Conventional classifiers usually aim to optimize the overall accuracy without considering the relative distribution of each class. This article presents a superensemble classifier, to tackle and improve predictions in imbalanced classification problems, that maps Hellinger distance decision trees (HDDT) into radial basis function network (RBFN) framework. Regularity conditions for universal consistency and the idea of parameter optimization of the proposed model are provided. The proposed distribution-free model can be applied for feature selection cum imbalanced classification problems. We have also provided enough numerical evidence using various real-life data sets to assess the performance of the proposed model. Its effectiveness and competitiveness with respect to different state-of-the-art models are shown.

研究の動機と目的

クラス不均衡データセットにおけるマイノリティクラスの性能が著しく低下する問題に対処すること。
データサンプリングを回避する分布フリーなアンサンブルモデルの開発により、元のデータ構造を保ち、計算コストを低減すること。
HDDT（クラススケイの影響に強い）と RBFN（高速収束性、普遍一貫性）の長所を統合し、単一の解釈可能なスーパーエンセムブルフレームワークとして構築すること。
小〜中規模の不均衡データセットにおいて、特徴量選択と分類の両方をサポートする手法の提供。
最新のモデル、特にサンプリングベースおよび単一分類器アプローチと比較して、競争力のある性能を示すこと。

提案手法

提案されたスーパーエンセムブル分類器は、訓練済みの HDDT モデルを RBFN フレームワークにマッピングし、HDDT のノードを RBF の中心点として使用してハイブリッドモデルを構築する。
HDDT の分割基準としてヘリンジャー距離を用いることで、クラス不均衡に対するロバスト性を確保し、マジョリティクラスへのバイアスを低減する。
RBFN の部品では、ガウスカーネルを用いた径方向基底関数を採用し、ややきつい正則性条件のもとで高速な学習と普遍一貫性を達成する。
分類誤差を最小化するために、RBF の幅や重みなどのモデルパラメータを勾配ベースまたはヒューリスティック手法で最適化する。
複数の HDDT-RBFN マッピングを組み合わせることで、アンサンブルフレームワークが多様性と汎化性能を確保し、過学習と分散の低減を実現する。
この手法は解釈可能性を重視しており、RBFN の重みと HDDT の分割ルールから特徴量の重要度を導出できる。

実験結果

リサーチクエスチョン

RQ1クラス分布を変更せずに、HDDT-RBFN ハイブリッドスーパーエンセムブル分類器が、従来の分類器やサンプリングベースの手法を上回る性能を示せるか？
RQ2提案されたスーパーエンセムブルモデルは、クラス不均衡を扱う中でも普遍一貫性をどのように維持するか？
RQ3SMOTE や SMOTE+ENN などのデータサンプリング技術の必要性を、どの程度低減できるか？
RQ4HDDT と RBFN の統合は、単体のモデルと比較して、一般化性能の向上と過学習の低減にどの程度寄与するか？
RQ5本手法は、小〜中規模の不均衡データセットにおいて、特徴量選択と解釈可能性にどのような影響を与えるか？

主な発見

提案されたスーパーエンセムブル分類器は、8つのデータセットのうち5つで最高の AUC を達成し、単体分類器およびサンプリングベースの手法を上回った。
Pima Diabetes データセットでは、SMOTE+ENN プリプロセッシングを施した状態で AUC 0.748 を達成し、k-NN や RF などのベースラインモデルを上回った。
Indian Business School データセットでは、SMOTE+ENN を用いた状態で AUC 0.914 を達成し、同じデータで RBFN（0.905）や RF（0.875）を顕著に上回った。
モデルは普遍一貫性を示し、最小限のハイパーパrameterチューニングで運用可能であり、実世界応用において実用的であることが示された。
高次元データセットの Page Blocks においても強力な性能を示し、SMOTE+ENN を用いた場合に AUC 0.949 を達成し、理論的上限に近く、非常に優れた性能を発揮した。
モデルは高い精度と解釈可能性を維持しており、複雑なブラックボックスモデルを凌駕するとともに、データサンプリングを回避し、元のデータ構造を保持したままだった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。