QUICK REVIEW

[論文レビュー] Rethinking the Value of Labels for Improving Class-Imbalanced Learning

Yuzhe Yang, Zhi Xu|arXiv (Cornell University)|Jun 13, 2020

Imbalanced Data Classification Techniques参考文献 56被引用数 212

ひとこと要約

本論文は、クラス不均衡学習において不均衡なラベルが有用になり得ることを分析し、半教師あり学習と自己教師ありアプローチの両方が性能を向上させうることを示し、理論と大規模実験を提示する。

ABSTRACT

Real-world data often exhibits long-tailed distributions with heavy class imbalance, posing great challenges for deep recognition models. We identify a persisting dilemma on the value of labels in the context of imbalanced learning: on the one hand, supervision from labels typically leads to better results than its unsupervised counterparts; on the other hand, heavily imbalanced data naturally incurs "label bias" in the classifier, where the decision boundary can be drastically altered by the majority classes. In this work, we systematically investigate these two facets of labels. We demonstrate, theoretically and empirically, that class-imbalanced learning can significantly benefit in both semi-supervised and self-supervised manners. Specifically, we confirm that (1) positively, imbalanced labels are valuable: given more unlabeled data, the original labels can be leveraged with the extra data to reduce label bias in a semi-supervised manner, which greatly improves the final classifier; (2) negatively however, we argue that imbalanced labels are not useful always: classifiers that are first pre-trained in a self-supervised manner consistently outperform their corresponding baselines. Extensive experiments on large-scale imbalanced datasets verify our theoretically grounded strategies, showing superior performance over previous state-of-the-arts. Our intriguing findings highlight the need to rethink the usage of imbalanced labels in realistic long-tailed tasks. Code is available at https://github.com/YyzHarry/imbalanced-semi-self.

研究の動機と目的

実世界データにおける深刻なクラス不均衡の下で、ラベル情報がどのように振る舞うかを理解する。
不均衡ラベルの正と負の側面を理論的に分析する。
長尾タスクでの性能向上のために、不均衡ラベルを活用する半教師ありおよび自己教師あり戦略を提案する。
CIFAR-10/100-LT、SVHN-LT、ImageNet-LT、iNaturalist 2018 全体での大規模実験を通じて理論を検証する。

提案手法

ガウス混合を用いて不均衡学習を理論的にモデル化し、不均衡ラベルの上に未ラベルデータと疑似ラベルを研究する。
未ラベルデータ上の疑似ラベルを用いてラベルバイアスを緩和する半教師ありフレームワークを提案する。
標準的な学習の前にラベルを用いずにモデルを初期化する自己教師あり事前学習（SSP）ステージを提案する。
さまざまな不均衡比における長尾ベンチマークでSSLとSSPを経験的に評価する。
境界形成とクラス分離の改善を示すためにt-SNEビジュアルを用いる。
SSL/SSPが既存の不均衡学習技術と適合することを実証する。

実験結果

リサーチクエスチョン

RQ1疑似ラベルを持つ未ラベルデータは、半教師あり設定でラベルバイアスを低減し不均衡学習を改善できるか。
RQ2半教師あり学習は、さまざまな不均衡比とデータセットで一貫した利得を提供するか。
RQ3自己教師あり事前学習（SSP）は、ラベルデータを使用せずに不均衡学習で堅牢な改善をもたらすか。
RQ4未ラベルデータの特性（サイズと不均衡）が長尾タスクの半教師あり利得にどう影響するか。
RQ5SSPの利得は、小規模および大規模な不均衡ベンチマークの間で一貫しているか。

主な発見

疑似ラベルを持つ未ラベルデータは、不均衡設定の教師ありベースラインよりも大幅な改善をもたらし、極端な不均衡で約10ポイント程度の利得を得られる。
よりバランスの取れた未ラベルデータとより大きな未ラベルデータプールは、一般にSSLの利得を大きくするが、その効果は元のデータの不均衡に依存する。
自己教師あり事前学習（SSP）は、多様なベースラインとデータセットで一貫して性能を向上させ、ラベルデータを使用するSSL手法と同等かそれを上回ることが多い。
SSPは高次元設定で指数関数的に近い改善をもたらすことができ、訓練データが不均衡であってもラベルに依存しない表現を学習する。
CIFAR-10-LT、CIFAR-100-LT、ImageNet-LT、iNaturalist 2018 の各環境で、SSPは複数の構成で新しい最先端結果を達成している。
定性的分析（t-SNE）は、SSPとSSLがテールクラスの分離をよりはっきりさせ、意思決定境界をより頑健にすることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。