QUICK REVIEW

[論文レビュー] ABC: Auxiliary Balanced Classifier for Class-imbalanced Semi-supervised Learning

Hyuck Lee, Seungjae Shin|arXiv (Cornell University)|Oct 20, 2021

Imbalanced Data Classification Techniques参考文献 38被引用数 41

ひとこと要約

この論文は、半教師あり学習におけるクラス不均衡を緩和するために、バックボーンSSLモデルに単一層の補助的なバランス分類器ABCを接続し、整合性正則化とクラスバランス損失でエンドツーエンドに学習する手法を提案する。複数のクラス不均衡SSLベンチマークで最先端の結果を達成している。

ABSTRACT

Existing semi-supervised learning (SSL) algorithms typically assume class-balanced datasets, although the class distributions of many real-world datasets are imbalanced. In general, classifiers trained on a class-imbalanced dataset are biased toward the majority classes. This issue becomes more problematic for SSL algorithms because they utilize the biased prediction of unlabeled data for training. However, traditional class-imbalanced learning techniques, which are designed for labeled data, cannot be readily combined with SSL algorithms. We propose a scalable class-imbalanced SSL algorithm that can effectively use unlabeled data, while mitigating class imbalance by introducing an auxiliary balanced classifier (ABC) of a single layer, which is attached to a representation layer of an existing SSL algorithm. The ABC is trained with a class-balanced loss of a minibatch, while using high-quality representations learned from all data points in the minibatch using the backbone SSL algorithm to avoid overfitting and information loss.Moreover, we use consistency regularization, a recent SSL technique for utilizing unlabeled data in a modified way, to train the ABC to be balanced among the classes by selecting unlabeled data with the same probability for each class. The proposed algorithm achieves state-of-the-art performance in various class-imbalanced SSL experiments using four benchmark datasets.

研究の動機と目的

動機: 実世界の多くのデータセットはクラス不均衡であり、SSL手法はしばしば多数クラスにバイアスをとられる。
目標: アウトラバースデータを活用しつつ、補助的分類器を通じて予測をバランスさせるスケーラブルなCISSLアルゴリズムを開発する。
貢献: バックボーンSSLモデルに単一層の補助的バランス分類器（ABC）を接続し、バランスの取れた損失と整合性正則化でエンドツーエンドに訓練する。
影響: 最小のオーバーヘッドで複数のクラス不均衡SSLベンチマークにおいて最先端の結果を達成。

提案手法

バックボーンの表現層に1層のABCを接続し、高品質なバックボーン表現を用いてバランスの取れた意思決定を学習する。
各ミニバッチ内のラベル付きデータに0/1マスクを適用することでクラスバランスの損失でABCを訓練し、バックボーン表現を損なうことなくバランスのとれた監督を実現する。
ABCの訓練中に minoritiesクラスのラベル付きデータを過サンプルするためにBernoulliベースのマスクM(x)を用い、ミニバッチ全体からの情報を保持する。
未ラベルデータにはソフトな疑似ラベルを用いた整合性正則化を適用し、マスクされた損失を組み込んでABCの予測をクラス間でバランスさせる。
整合性正則化における未ラベルデータのマスキングを徐々に調整して少数クラスへの過学習を防ぎ、安定した訓練を確保する。
エンドツーエンド訓練: バックボーン損失、ABC分類損失、整合損失の和を最適化し、新しいデータに対する最終予測にはABCを展開する。

実験結果

リサーチクエスチョン

RQ1補助的な1層分類器をバックボーンSSLモデルに接続して、クラス不均衡の半教師あり設定においてバランスの取れた予測を学習できるか。
RQ2高品質なバックボーン表現が学習するバイアスを緩和するために、ABCのマスク付きクラスバランス訓練はどのように相互作用するか。
RQ3整合性正則化とマスクされたクラスバランスABCを組み合わせることは、全体の精度を犠牲にすることなく少数クラスの性能を改善するか。
RQ4バックボーンとABCのエンドツーエンド訓練は、CISSLの分離訓練よりも効果的か。
RQ5大規模データセットにおけるバックボーンのみ訓練と比較してABCを追加する計算オーバーヘッドはどの程度か。

主な発見

Algorithm	CIFAR-10-LT (ガンマ=100, ベータ=20%)	SVHN-LT (ガンマ=100, ベータ=20%)	CIFAR-100-LT (ガンマ=20, ベータ=40%)
Vanilla	55.3 1.30 / 33.9 1.88	77.0 0.67 / 63.3 1.25	40.1 1.15 / 25.2 0.95
w/ ABC	81.1 0.82 / 72.0 1.77	92.0 0.38 / 87.9 0.73	56.3 0.19 / 43.4 0.42
ReMixMatch	73.7 0.39 / 55.9 0.87	89.8 0.42 / 82.8 0.68	54.0 0.29 / 37.1 0.37
w/ ABC (ReMixMatch)	82.4 0.45 / 75.7 1.18	93.9 0.16 / 92.5 0.4	57.6 0.26 / 46.7 0.50

提案されたABC手法は、さまざまな不均衡・ラベリング条件下でCIFAR-10-LT、SVHN-LT、CIFAR-100-LTにおいて最先端の性能を達成。
gamma=100、beta=20%のCIFAR-10-LTで、ABCは全体81.1%、マイノリティ精度72.0%を達成（表1の例行）。
SVHN-LTでは、ABCは全体92.0%、マイノリティ精度87.9%を達成（表1の例行）。
CIFAR-100-LTでは、ABCは全体56.3%、マイノリティ精度43.4%を達成（表1の例行）。
アブレーション研究により、0/1マスキング、整合性正則化、または信頼度閾値τを削除すると性能が低下し、ABCが多数クラスに偏ることが示される。
定性的分析（t-SNE、混同行列）は、ABCがバックボーン表現を活用してより分離可能なクラスクラスターとよりバランスの取れたクラス分布を生み出すことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。