[論文レビュー] Self-supervised Label Augmentation via Input Transformations
本論文は Self-supervised Label Augmentation (SLA) を導入し、入力変換からの元のラベルと自己教師ありラベルを結合した統一タスクを学習することで、テスト時の集約を可能にし、自己蒸留を通じて完全 supervised タスクで強力な利得を得ることを可能にします。
Self-supervised learning, which learns by constructing artificial labels given only the input signals, has recently gained considerable attention for learning representations with unlabeled datasets, i.e., learning without any human-annotated supervision. In this paper, we show that such a technique can be used to significantly improve the model accuracy even under fully-labeled datasets. Our scheme trains the model to learn both original and self-supervised tasks, but is different from conventional multi-task learning frameworks that optimize the summation of their corresponding losses. Our main idea is to learn a single unified task with respect to the joint distribution of the original and self-supervised labels, i.e., we augment original labels via self-supervision of input transformation. This simple, yet effective approach allows to train models easier by relaxing a certain invariant constraint during learning the original and self-supervised tasks simultaneously. It also enables an aggregated inference which combines the predictions from different augmentations to improve the prediction accuracy. Furthermore, we propose a novel knowledge transfer technique, which we refer to as self-distillation, that has the effect of the aggregated inference in a single (faster) inference. We demonstrate the large accuracy improvement and wide applicability of our framework on various fully-supervised settings, e.g., the few-shot and imbalanced classification scenarios.
研究の動機と目的
- ラベル付きデータが利用可能な場合でも、自己-supervised信号を動機づけ、活用する。
- 意味的内容を変える可能性のある変換に対して不変性を強制しない。
- 元のラベルを自己-supervisedラベルで拡張する統一的なジョイントラベル学習フレームワークを提案する。
- 単一モデル内でアンサンブルを模倣するための集約ベース推論を可能にする。
- 集約された知識をより高速な単一パス推論へ転送する自己蒸留機構を導入する。
提案手法
- 元のラベルと変換のペアを含む joint softmax rho を用いて SLA 損失 L_SLA を定義する。
- P(i,j|x̃) を rho_{ij}(z̃; w) で表し、(y, j) へのクロスエントロピーを最小化する。
- M 個の変換にわたる集約を用いて、w_{ij}^T z̃_j から P_aggregated(i|x) を計算する。
- KL 散逸と任意の CE 損失を用いて、集約知識を単一の分類器 u に転送する自己蒸留 L_SLA+SD を導入する。
- 2 つの変換(回転(M=4)と色置換(M=6))、および性能向上のための組合せ変換を実験する。
- L_SLA を最適化するために、1 回のイテレーションで全ての M 個の拡張サンプルを入力として訓練し、t_1 を恒等変換とする。
実験結果
リサーチクエスチョン
- RQ1自己監督ラベルは、ラベル付きデータがある場合でも精度を向上させ得るか(不変性制約を避けることで)?
- RQ2結合ラベル SLA は、精度と訓練難易度の点で、従来のデータ拡張やマルチタスク自己監督学習に対して利益を提供するか?
- RQ3 augmented サンプル上の集約はアンサンブルの利得に匹敵できるか、自己蒸馏はより速い推論を維持しつつこの利得を保てるか?
- RQ4SLA のバリアントは標準・少数ショット・不均衡な分類タスクでどう性能を示すか?
- RQ5回転とカラー置換の組み合わせ、そして変換の合成はどのような影響を与えるか?
主な発見
- SLA は回転またはカラー置換を用いて CIFAR-10/100 および tiny-ImageNet でベースラインより有意な精度向上をもたらす。
- 回転ベースの SLA は aggregation の下で CIFAR-100 で最大 8.60% 相対改善、CUB200 で最大 18.8% を達成。
- Aggregation (SLA+AG) は単一モデルを用いながら独立モデルのアンサンブルにほぼ匹敵する。
- 自己蒸留 (SLA+SD) は競争力のある精度でより高速な推論を提供し、他の拡張と組み合わせたときに改善を達成する。
- SLA は few-shot および不均衡設定で性能を向上させ、例えば 5-shot FC100 で最大 7.05% 相対利得、不均衡 CIFAR-100 で最大 13.3% を達成。
- 複数の変換を組み合わせる(最大 M=12)と、CUB200 や Stanford Dogs のような細分類データセットで集約結果をさらに改善できる。
- SLA は最先端の拡張法との適合性を示し、組み合わせると精度が向上します(例:CIFAR-10/100 で Cutout、CutMix、AutoAugment などと併用)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。