Skip to main content
QUICK REVIEW

[論文レビュー] CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning

Chen Wei, Kihyuk Sohn|arXiv (Cornell University)|Feb 18, 2021
Imbalanced Data Classification Techniques参考文献 45被引用数 33
ひとこと要約

CReSTは、少数クラスの疑似ラベルを優先的に追加し、分布を段階的に整合させることで、クラス不均衡な半教師付き学習を改善するクラス再バランス自己訓練フレームワーク(および進化版のCReST+)を提案し、長尾データセット上で最先端のSSLベースラインに対して大幅な改善を示す。

ABSTRACT

Semi-supervised learning on class-imbalanced data, although a realistic problem, has been under studied. While existing semi-supervised learning (SSL) methods are known to perform poorly on minority classes, we find that they still generate high precision pseudo-labels on minority classes. By exploiting this property, in this work, we propose Class-Rebalancing Self-Training (CReST), a simple yet effective framework to improve existing SSL methods on class-imbalanced data. CReST iteratively retrains a baseline SSL model with a labeled set expanded by adding pseudo-labeled samples from an unlabeled set, where pseudo-labeled samples from minority classes are selected more frequently according to an estimated class distribution. We also propose a progressive distribution alignment to adaptively adjust the rebalancing strength dubbed CReST+. We show that CReST and CReST+ improve state-of-the-art SSL algorithms on various class-imbalanced datasets and consistently outperform other popular rebalancing methods. Code has been made available at https://github.com/google-research/crest.

研究の動機と目的

  • ラベル付きデータとラベルなしデータが不均衡な分布を共有するSSLの未研究領域を動機づけ、解決する。
  • 不均衡データに対する既存SSL手法のバイアスを調査し、少数クラスで高い精度だが低いリコールを特定する。
  • ラベル付き集合を再バランスさせるために、少数クラスのサンプルをより積極的に擬似ラベルづけして選択する自己訓練フレームワーク(CReST)を提案する。
  • 自己訓練中のモデルバイアスに対抗するため、予測を段階的に整合させる分布整合(CReST+)を拡張する。
  • CIFAR-LTとImageNet127のベンチマークで、さまざまなラベル割合と不均衡比に対して、少数クラスのリコールと全体精度が改善されることを実証する。

提案手法

  • SSLにおいて少数クラスの疑似ラベルの精度が高い一方で少数クラスのリコールが低いことを観察する。
  • 基本となるSSLモデルを反復的に再訓練し、未ラベルデータから選択的にラベル付けされたデータを追加してラベル付き集合を拡張する。推定されるクラス分布に基づき、少数クラスに偏らせる。
  • クラスlから追加する疑似ラベルのサンプル数を決定するために、サンプリングレートmu_lを ((N_{L+1-l}/N_1))^alpha に比例させる(alpha > 0 は少数クラスを優遇)。
  • 温度スケーリングtを用いた段階的分布整合(DA)を導入し、世代間での疑似ラベルの再配分を制御する(CReST+)。
  • 後の世代ほど再バランスの影響を高めつつ、精度とリコールのバランスを取るために世代を通じてtを段階的に減少させる。
  • CIFAR-LTとImageNet127でFixMatchとMixMatchを用いたベンチマークにより、ベースラインや従来手法を上回る改善を示す。

実験結果

リサーチクエスチョン

  • RQ1SSLの性能はクラス不均衡データでどのように劣化するか、少数クラスの精度をリコール向上に活用できるか。
  • RQ2クラス再バランス自己訓練ループは、不均衡なラベル付き/ラベルなしデータにおけるSSL手法のリコールと全体精度を改善できるか。
  • RQ3進行的な分布整合(CReST+)は、世代を超えて疑似ラベルの品質を高め、モデルのバイアスを低減できるか。
  • RQ4提案手法は長尾データセットCIFAR(CIFAR10-LT、CIFAR100-LT)および大規模ImageNet127で、ラベル割合を変化させた場合にどう機能するか。
  • RQ5CReSTおよびCReST+は、DARPや従来のリバランシング手法など、最新の不均衡SSL法を上回るか。

主な発見

  • CReSTは評価した不均衡およびラベル割合全般でベースラインSSL法を一貫して上回り、CIFAR-LTベンチマークで最大11.8%の精度向上を達成。
  • CReST+は進行的分布整合を通じてさらに性能を向上させ、複数の設定でCReSTを上回る追加の利得を得る。
  • CIFAR-LT(gamma up to 200)および10–30%のラベルデータで、CReST/CReST+はFixMatchおよびMixMatchベースラインといくつかのリバランシングベースラインを上回る。
  • ImageNet127で10%のラベルデータの場合、CReST+はベースラインより7.9%のリコール改善を達成。
  • アブレーション研究では、非零のalpha(クラス再バランスサンプリング)が利得に不可欠であること、CReST+における逐次温度tのスケジューリングが精度とリコールのバランスを効果的に取ることを示す。
  • CReST+とロジット補正後処理(LA)を組み合わせるとさらに改善が得られ、いくつかの比較で最良結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。