[論文レビュー] i-Mix: A Domain-Agnostic Strategy for Contrastive Representation Learning
i-Mixは、ドメインに依存しない MixUp にインスパイアされた対照表現学習の正則化を導入し、視覚、音声、表形式データの表現を改善します。バッチ内でデータと仮想ラベルを増強して下流の分類性能を向上させます。
Contrastive representation learning has shown to be effective to learn representations from unlabeled data. However, much progress has been made in vision domains relying on data augmentations carefully designed using domain knowledge. In this work, we propose i-Mix, a simple yet effective domain-agnostic regularization strategy for improving contrastive representation learning. We cast contrastive learning as training a non-parametric classifier by assigning a unique virtual class to each data in a batch. Then, data instances are mixed in both the input and virtual label spaces, providing more augmented data during training. In experiments, we demonstrate that i-Mix consistently improves the quality of learned representations across domains, including image, speech, and tabular data. Furthermore, we confirm its regularization effect via extensive ablation studies across model and dataset sizes. The code is available at https://github.com/kibok90/imix.
研究の動機と目的
- ドメイン固有のデータ拡張が存在することから、対照学習におけるドメイン非依存のデータ拡張の必要性を動機づける。
- バッチ内でデータと仮想ラベルを混ぜる正則化手法として i-Mix を提案する。
- 画像・音声・表データセットでの i-Mix のドメイン横断適用性を示す。
- 異なるモデルサイズ、データレジーム、および転移設定の下で正則化効果を検証するアブレーションを示す。
提案手法
- i-Mixを、バッチ内でデータインスタンスと仮想ラベルを混ぜることとして定義する。
- 入力とラベルの混合のためにベータ分布 lambda を導入する。
- ドメイン横断で、N-pair、MoCo風、BYOL統合などの複数の対照損失に i-Mix を適用する。
- 必要に応じて、特にドメイン拡張が乏しい場合には入力拡張と i-Mix を組み合わせてさらなるデータ拡張を行う。
実験結果
リサーチクエスチョン
- RQ1i-Mix は多様なドメイン(画像、音声、表データ)全体で一貫して対照表現学習を改善しますか?
- RQ2異なる対照フレームワーク(N-pair、MoCo、BYOL)との組み合わせで下流精度にどのような影響がありますか?
- RQ3異なるデータセットサイズとモデル容量における i-Mix の正則化効果は何ですか?
主な発見
| Domain | Dataset | N-pair | + i-Mix | MoCo v2 | + i-Mix | BYOL | + i-Mix |
|---|---|---|---|---|---|---|---|
| Image | CIFAR-10 | 93.3 ± 0.1 | 95.6 ± 0.2 | 93.5 ± 0.2 | 96.1 ± 0.1 | 94.2 ± 0.2 | 96.3 ± 0.2 |
| Image | CIFAR-100 | 70.8 ± 0.4 | 75.8 ± 0.3 | 71.6 ± 0.1 | 78.1 ± 0.3 | 72.7 ± 0.4 | 78.6 ± 0.2 |
| Speech | Commands | 94.9 ± 0.1 | 98.3 ± 0.1 | 96.3 ± 0.1 | 98.4 ± 0.0 | 94.8 ± 0.2 | 98.3 ± 0.0 |
| Tabular | CovType | 68.5 ± 0.3 | 72.1 ± 0.2 | 70.5 ± 0.2 | 73.1 ± 0.1 | 72.1 ± 0.2 | 74.1 ± 0.2 |
- i-Mix は、検証済みの全てのドメインと手法(例:CIFAR-10、CIFAR-100、Speech Commands、CovType)で一貫した精度向上をもたらす。
- MoCo v2 を用いた CIFAR-100 で、基準手法に比べ最大で 6.5 ポイントの改善を達成。
- i-Mix を用いた自己教師あり事前学習後の線形評価は、いくつかの設定で監督付きベースラインに近づくか上回る(例:CIFAR-10、Speech Commands)。
- トレーニングデータが限られている場合、またはドメイン拡張が弱いまたは利用できない場合に特に有効。
- 表1は CIFAR-10、CIFAR-100、Speech Commands、CovType における i-Mix 付き N-pair、MoCo v2、BYOL のドメイン横断利得を示す。
- モデルサイズの変動や長めの学習設定でも i-Mix は有益であり、正則化効果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。