QUICK REVIEW

[論文レビュー] UBL: an R package for Utility-based Learning

Paula Branco, Rita P. Ribeiro|arXiv (Cornell University)|Apr 27, 2016

Imbalanced Data Classification Techniques参考文献 10被引用数 24

ひとこと要約

本論文では、非一様なコストや利益を伴う分類および回帰問題に対処するために、焦点を当てたアンダーサンプリングや合成オーバーサンプリングなどの前処理技術を適用することで、利益に基づく学習を可能にする UBL Rパッケージを紹介する。このパッケージは、ユーザー指定および自動推定された好みバイアスを備えたマルチクラスおよび回帰タスクをサポートし、ドメイン固有の利益に応じてデータ分布を再重み付けすることにより、不均衡なドメインにおけるモデル性能を向上させる。

ABSTRACT

This document describes the R package UBL that allows the use of several methods for handling utility-based learning problems. Classification and regression problems that assume non-uniform costs and/or benefits pose serious challenges to predictive analytic tasks. In the context of meteorology, finance, medicine, ecology, among many other, specific domain information concerning the preference bias of the users must be taken into account to enhance the models predictive performance. To deal with this problem, a large number of techniques was proposed by the research community for both classification and regression tasks. The main goal of UBL package is to facilitate the utility-based predictive analytic task by providing a set of methods to deal with this type of problems in the R environment. It is a versatile tool that provides mechanisms to handle both regression and classification (binary and multiclass) tasks. Moreover, UBL package allows the user to specify his domain preferences, but it also provides some automatic methods that try to infer those preference bias from the domain, considering some common known settings.

研究の動機と目的

金融、医療、気象学など、予測誤差に非一様なコストや利益が伴う分野における予測モデリングの課題に対処すること。
利益に基づく好みを考慮した、二値およびマルチクラス分類、および回帰問題を扱える柔軟なフレームワークを提供すること。
ユーザーがドメインの好みを手動で指定するか、データ分布から好みバイアスを自動的に推定する方法を用いて、特に不均衡な状況下でも効果的に対応できること。
目的変数に複数の重要な領域を有する状況において、従来の二値分類手法をマルチクラスおよび回帰タスクに拡張すること。
標準的な学習アルゴリズムを用いることを可能にするために、データ分布の前処理を施すことで、モデルの解釈性を保持すること。

提案手法

ユーザーの好みに応じてデータ分布を調整するための前処理戦略（ランダムまたは焦点を当てたアンダーサンプリング、リピートまたは合成生成によるオーバーサンプリング）を実装する。
HEOM や HVDM などの距離関数を用いて、インスタンス間の類似度を計算し、数値および名義的特徴を併用可能なようにする。
名義的特徴には正規化された VDM を、数値的特徴には正規化された差分を用い、標準偏差をスケーリングに使用する。
サンプリングパラメータ（例：クラス重み、サンプリング比）の手動指定と、データの不均衡から好みバイアスを自動推定する両方の方法をサポートする。
SMOTE や NCL、Tomek リンクを、カスタマイズ可能な距離メトリクスと統合し、少数クラスや高利益クラスに再重み付けを行う。
前処理後、任意の標準的な学習アルゴリズムを用いることが可能で、モデルの解釈性と互換性を維持する。

実験結果

リサーチクエスチョン

RQ1非一様なコストや利益を伴うマルチクラス分類および回帰問題に、利益に基づく学習を効果的に適用する方法は何か？
RQ2ドメイン固有の好みバイアスが存在するが、形式的に定量化されていない状況において、どの前処理戦略がモデル性能を最も効果的に向上させるか？
RQ3明示的なユーザー入力なしに、不均衡なデータから最適なサンプリング分布を自動的に推定できる程度はどの程度か？
RQ4HEOM や HVDM などの異なる距離関数は、混合型データにおける合成サンプリング技術の性能にどのように影響を与えるか？
RQ5データ分布を変更する前処理手法は、高利益ターゲット領域の性能向上を図りながら、モデルの解釈性を維持できるか？

主な発見

UBL パッケージは、目的変数に複数の重要な領域を有するマルチクラス分類および回帰タスクに、利益に基づく学習手法を効果的に拡張した。
SMOTE や NCL、Tomek リンクなどの前処理戦略を HVDM 距離と組み合わせることで、高利益クラスや領域に注目した不均衡データにおけるモデル性能が向上した。
UBL の自動手法は、データの不均衡から好みバイアスを推定し、少数クラスや領域が最も重要であると仮定して、それに応じてサンプリングを調整する。
名義的特徴には正規化された VDM、数値的特徴には正規化された差分を用いた HVDM 距離の使用により、混合型データセットにおける類似度測定が向上した。
HVDM や SMOTE などの距離関数を用いた UBL の適用により、合成データおよび実世界のデータ例で示されるように、予測性能が向上した。
パッケージは、前処理後に標準的な学習アルゴリズムを用いることを可能にし、利益駆動の性能向上を図りながら、モデルの解釈性を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。