QUICK REVIEW

[論文レビュー] Smart Data based Ensemble for Imbalanced Big Data Classification

Diego García‐Gil, Johan Holmberg|arXiv (Cornell University)|Jan 16, 2020

Imbalanced Data Classification Techniques被引用数 4

ひとこと要約

本論文は、データ前処理とアンサンブル学習を統合することで、少数クラスのパフォーランスを向上させる、インフォーマルなビッグデータ分類のためのスマートデータベースのアンサンブル手法を提案する。21個のビッグデータセットで評価された結果、従来のモデル（例：ランダムフォレスト）に比べ、データバランス化技術を組み合わせた場合に優れた性能を示した。

ABSTRACT

Big Data scenarios pose a new challenge to traditional data mining algorithms, since they are not prepared to work with such amount of data. Smart Data refers to data of enough quality to improve the outcome from a data mining algorithm. Existing data mining algorithms unability to handle Big Datasets prevents the transition from Big to Smart Data. Automation in data acquisition that characterizes Big Data also brings some problems, such as differences in data size per class. This will lead classifiers to lean towards the most represented classes. This problem is known as imbalanced data distribution, where one class is underrepresented in the dataset. Ensembles of classifiers are machine learning methods that improve the performance of a single base classifier by the combination of several of them. Ensembles are not exempt from the imbalanced classification problem. To deal with this issue, the ensemble method have to be designed specifically. In this paper, a data preprocessing ensemble for imbalanced Big Data classification is presented, with focus on two-class problems. Experiments carried out in 21 Big Datasets have proved that our ensemble classifier outperforms classic machine learning models with an added data balancing method, such as Random Forests.

研究の動機と目的

少数クラスが不足しているインフォーマルなビッグデータにおけるクラス分布の不均衡という課題に対処すること。
大規模かつインフォーマルなデータセットを処理する際の従来のデータマイニングアルゴリズムの限界を克服するため、スマートデータの原則とアンサンブル学習を統合すること。
二値のインフォーマルなビッグデータ分類問題において、データ前処理と分類器のアンサンブルを統合した特別なアンサンブルフレームワークを設計すること。
データバランス化技術を用いて強化された場合に、提案手法が古典的モデルよりも優れた分類パフォーマンスを達成することを示すこと。

提案手法

アンサンブル学習の前段階でリサンプリング技術を適用することで、ビッグデータにおけるクラス不均衡に特に焦点を当てたデータ前処理アンサンブルを提案する。
複数のベース分類器を統合して一般化性能とロバストネスを向上させ、特に少数クラスに対して有効であるようにする。
スマートデータの原則を用いてデータの質と関連性を保証し、大規模データセットにおけるアンサンブルの有効性を高める。
リサンプリング戦略（例：少数クラスのオーバーサンプリング、多数クラスのアンダーサンプリング）をアンサンブル学習と組み合わせることで、クラス分布のバランスを取る。
複数のベース分類器からの予測を統合するメタアンサンブル学習を適用し、F1スコアとAUCを最適化することで不均衡に対処する。
スケーラブルかつ効率的なパイプラインを設計し、ビッグデータワークロードに適応させ、自動データ取得システムとも互換性を持たせる。

実験結果

リサーチクエスチョン

RQ1標準的な機械学習モデルと比較して、データ前処理アンサンブルはインフォーマルなビッグデータにおける分類パフォーランスを向上させることができるか？
RQ2スマートデータの原則の統合は、ビッグデータ環境におけるアンサンブル手法の有効性をどのように向上させるか？
RQ3データバランス化技術を組み合わせた場合に、提案されたアンサンブル手法は、ランダムフォレストのような従来のモデルをどの程度上回るか？
RQ4提案手法は、クラス不均衡度が異なる多様なビッグデータセットにおいて、ロバストでスケーラブルであるか？

主な発見

データバランス化手法を用いて強化された、提案されたアンサンブル分類器は、ランダムフォレストのような古典的機械学習モデルよりも優れたパフォーマンスを示した。
21個の多様なビッグデータセットにおいて、アンサンブル手法は特に少数クラスにおいて、F1スコアとAUCの両方で一貫した向上を示した。
スマートデータ前処理の統合により、データの質と表現の向上が実現され、分類器のパフォーマンスが顕著に向上した。
多数クラスへのバイアスを効果的に軽減し、不足しているカテゴリの誤分類リスクを低減した。
アンサンブルフレームワークは、大容量かつインフォーマルなデータセットを含む実世界のビッグデータ環境でも、スケーラブルかつ効果的であった。
結果から、インフォーマルなビッグデータを処理するには、専用のアンサンブル設計が不可欠であることが確認された。標準的なアンサンブルでは、依然としてクラス不均衡の問題が残っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。