Skip to main content
QUICK REVIEW

[論文レビュー] Imbalanced-learn: A Python Toolbox to Tackle the Curse of Imbalanced Datasets in Machine Learning

Guillaume Lemaître, Fernando Nogueira|arXiv (Cornell University)|Sep 21, 2016
Imbalanced Data Classification Techniques参考文献 13被引用数 1,560
ひとこと要約

Imbalanced-learn は、不均衡データセットに対処するためのアンダーサンプリング、オーバーサンプリング、ハイブリッドサンプリング、アンサンブル手法の Python ツールボックスを提供し、scikit-learn と互換性があります。

ABSTRACT

Imbalanced-learn is an open-source python toolbox aiming at providing a wide range of methods to cope with the problem of imbalanced dataset frequently encountered in machine learning and pattern recognition. The implemented state-of-the-art methods can be categorized into 4 groups: (i) under-sampling, (ii) over-sampling, (iii) combination of over- and under-sampling, and (iv) ensemble learning methods. The proposed toolbox only depends on numpy, scipy, and scikit-learn and is distributed under MIT license. Furthermore, it is fully compatible with scikit-learn and is part of the scikit-learn-contrib supported project. Documentation, unit tests as well as integration tests are provided to ease usage and contribution. The toolbox is publicly available in GitHub: https://github.com/scikit-learn-contrib/imbalanced-learn.

研究の動機と目的

  • 詐欺検出や医療診断などの分野における実世界データセットでのクラス不均衡の頻度と影響に対処する。
  • 最新の不均衡処理技術の幅広い範囲に対応する Python API を提供する。
  • scikit-learn との互換性を確保し、採用と貢献を促進するために高いコード品質を維持する。

提案手法

  • 4 つの戦略グループを実装する:アンダーサンプリング、オーバーサンプリング、両者の組み合わせ、アンサンブル学習。
  • scikit-learn 風の API に従い、fit、sample、fit_sample メソッドを備えたサンプラークラスを提供する。
  • SMOTE、Borderline バリアント、Tomek リンク、さまざまな ENN ベースのクリーニング手法など、一般的な不均衡手法をサポートする。
  • scikit-learn と互換性のある Pipeline クラスを利用して、サンプラー、トランスフォーマ、推定器を組み合わせる。
  • MIT ライセンスおよび scikit-learn-contrib の状態で、numpy、scipy、scikit-learn への依存関係を確保する。
  • ユニットテスト(リリース 0.1.8 で 99% カバレッジ)と継続的インテグレーションにより高いコード品質を維持する。

実験結果

リサーチクエスチョン

  • RQ1さまざまなデータセットと不均衡比率に対して、どの不均衡処理手法が最も効果的か?
  • RQ2標準的な ML ワークフロー内で、アンダーサンプリング、オーバーサンプリング、アンサンブル手法の適用を統合的な Python ツールボックスでどのように合理化できるか?
  • RQ3採用と拡張を促進する、scikit-learn に最も適合する API デザインは何か?

主な発見

  • このツールボックスは、主に 4 つの戦略(アンダーサンプリング、オーバーサンプリング、組み合わせ、アンサンブル学習)を実装している。
  • サンプラー クラスは fit、sample、fit_sample メソッドを提供し、scikit-learn API を模倣している。
  • SMOTE とその派生、ランダムオーバーサンプリング、複数のアンダーサンプリング/クリーニング手法を含む。
  • Ensemble アプローチの EasyEnsemble と BalanceCascade は、単一のバランスのとれたデータセットを使用する代替案を提供する。
  • プロジェクトは MIT ライセンスで、numpy/scipy/scikit-learn に依存し、scikit-learn と完全に互換性がある。ドキュメント、テスト、CI 統合を備えている。
  • コード品質とプロジェクトの活発度は高く、リリース版で 99% のテストカバレッジが報告され、GitHub を介した活発な開発が行われている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。