[論文レビュー] MixCo: Mix-up Contrastive Learning for Visual Representation
MixCoはmix-upで生成された半陽性サンプルを用いて対照学習を拡張し、線形評価をデータセット全体で改善します。特にトレーニング資源が限られている場合に顕著です。
Contrastive learning has shown remarkable results in recent self-supervised approaches for visual representation. By learning to contrast positive pairs' representation from the corresponding negatives pairs, one can train good visual representations without human annotations. This paper proposes Mix-up Contrast (MixCo), which extends the contrastive learning concept to semi-positives encoded from the mix-up of positive and negative images. MixCo aims to learn the relative similarity of representations, reflecting how much the mixed images have the original positives. We validate the efficacy of MixCo when applied to the recent self-supervised learning algorithms under the standard linear evaluation protocol on TinyImageNet, CIFAR10, and CIFAR100. In the experiments, MixCo consistently improves test accuracy. Remarkably, the improvement is more significant when the learning capacity (e.g., model size) is limited, suggesting that MixCo might be more useful in real-world scenarios. The code is available at: https://github.com/Lee-Gihun/MixCo-Mixup-Contrast.
研究の動機と目的
- ラベルなしで自己教師あり視覚表現を改善する動機付け。
- ミックスアップを介して対照学習を半陽性サンプルへ拡張する。
- MixCoが下流タスクへの転移性能を改善することを示す。
- 限られたトレーニング資源下での利得が顕著であることを示す。
提案手法
- MixCoを、混合画像を用いて半陽性ターゲットを生成する対照損失のその場の拡張として定義する。
- 2つの画像の凸結合から混合データx_mixを生成し、その表現v_mixを計算する。
- MixCo損失を、標準の対照損失と、v_mixをv_iおよびv_kの双方にリンクさせる半陽性損失の組み合わせとして計算する。
- βという重み付けパラメータで損失を組み合わせる:L_total = L_Contrast + beta * L_MixCo。
- MixCoをMoCo-v2とSimCLRに適用し、TinyImageNet、CIFAR-10、CIFAR-100で線形評価によって評価する。
実験結果
リサーチクエスチョン
- RQ1ミックスアップを介して半陽性サンプルを導入することは、対照学習によって学習される視覚表現の質を向上させるか。
- RQ2MixCoは既存の対照フレームワーク(例:MoCo-v2、SimCLR)と互換性があり、モデルサイズを超えて有益か。
- RQ3事前学習中に見られていない下流データセットへの転移でMixCoはどう機能するか。
- RQ4計算資源またはモデル容量が限られているとき、MixCoの利得はより顕著か。
主な発見
| Architecture (epochs) | Method | TinyImageNet (Top-1) | CIFAR10 (Top-1) | CIFAR100 (Top-1) |
|---|---|---|---|---|
| ResNet-18 (100) | MoCo-v2 (baseline) | 35.79 | 71.02 | 48.81 |
| ResNet-18 (100) | MixCo (ours) | 42.65 | 74.25 | 53.23 |
| ResNet-18 (100) | SimCLR (baseline) | 35.30 | 70.64 | 47.48 |
| ResNet-18 (100) | SimCLR (with MixCo) | 36.44 | 71.44 | 48.32 |
| ResNet-34 (200) | MoCo-v2 (baseline) | 42.15 | 72.97 | 48.56 |
| ResNet-34 (200) | MixCo (ours) | 45.54 | 75.06 | 52.67 |
| ResNet-50 (200) | MoCo-v2 (baseline) | 45.82 | 78.57 | 58.21 |
| ResNet-50 (200) | MixCo (ours) | 49.96 | 80.60 | 59.36 |
- MixCoはエンコーダサイズとデータセットを問わず一貫して線形評価を改善する。
- ResNet-18を100エポックで訓練した場合、MixCoは基準のMoCo-v2およびSimCLRと比較してTinyImageNet、CIFAR10、CIFAR100の結果を改善する。
- 最大の相対的利得は、より小さなモデルとより少ないトレーニング資源で発生する(例:ResNet-18 100エポック設定でTinyImageNetトップ1に対して+6.84pp)。
- MixCo対応のモデルは、非MixCo系の counterparts よりCIFAR10/100およびTinyImageNetで転移精度が高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。