QUICK REVIEW

[論文レビュー] What Should Not Be Contrastive in Contrastive Learning

Tete Xiao, Xiao-Long Wang|arXiv (Cornell University)|Aug 13, 2020

Domain Adaptation and Few-Shot Learning参考文献 37被引用数 92

ひとこと要約

ペーパーは Leave-one-out Contrastive Learning (LooC) を提案する。これは、各空間が1つの増強を除くすべてに不変である別々の埋め込み空間を学習するマルチヘッド対比フレームワークであり、転移性・頑健性・さまざまなタスクでの性能を向上させる。

ABSTRACT

Recent self-supervised contrastive methods have been able to produce impressive transferable visual representations by learning to be invariant to different data augmentations. However, these methods implicitly assume a particular set of representational invariances (e.g., invariance to color), and can perform poorly when a downstream task violates this assumption (e.g., distinguishing red vs. yellow cars). We introduce a contrastive learning framework which does not require prior knowledge of specific, task-dependent invariances. Our model learns to capture varying and invariant factors for visual representations by constructing separate embedding spaces, each of which is invariant to all but one augmentation. We use a multi-head network with a shared backbone which captures information across each augmentation and alone outperforms all baselines on downstream tasks. We further find that the concatenation of the invariant and varying spaces performs best across all tasks we investigate, including coarse-grained, fine-grained, and few-shot downstream classification tasks, and various data corruptions.

研究の動機と目的

コントラスト学習におけるタスク特有の増強不変性への依存を減らす動機付け。
増強を手動で選択せず、増強不変性と増強変動性の両方の要因を学習するフレームワークを開発する。
埋め込み空間を組み合わせて、下流タスクが異なる変動要因を選択的に利用できるようにする。
粗分類/細分類、 few-shot などの多様な下流タスクと破損設定に対して手法を評価する。
複数の増強下でベースライン MoCo より転移性の改善を示す。

提案手法

共有バックボーンと複数の埋め込みヘッドを備えた Leave-one-out Contrastive Learning (LooC) を導入する。
1つのヘッドが単一の増強を分離し、他のヘッドが不変性を捉える増強スキームを用いてビューを生成する。
共有空間 V に射影し、次に Z0（すべての増強に不変）と Zi（ i 番目の増強以外すべてに不変）の埋め込み空間へ射影する。
対応するヘッド内の各増強対を整列させつつ、すべてのヘッドに渡るネガティブと対比する多空間対比目的を最適化する（式2）。
任意で全埋め込み空間を連結して、よりリッチな下流表現を形成する（LooC++）。
ResNet-50 バックボーンと2層のMLPヘッド、および各埋め込み空間用の MoCoスタイルのキューを使用する。

実験結果

リサーチクエスチョン

RQ1増強によって誘発される不変性は、タスク間で下流性能にどのように影響するか？
RQ2複数ヘッド構成は、他の増強に対してロバストでありつつ、個々の増強に紐づく情報を保存・活用できるか？
RQ3不変空間と増強特異的空間を組み合わせることで、さまざまな下流データセットへの転移が改善されるか？
RQ4回転、カラージッター、テクスチャを含む複数の増強を導入した場合、LooC は標準 MoCo とどう比較されるか？
RQ5増強依存特徴が現実世界のデータ破損に対する頑健性に与える影響は何か？

主な発見

LooC は複数の下流タスクでベースライン MoCo を上回る。
LooC は増強特異情報を保持・活用し、細分類や few-shot タスクでの性能向上につながる。
LooC++（すべての空間の連結）は、IN-100、iNat-1k、Flowers-102 など多様なデータセットで最も大きな総合利得をもたらす。
回転だけの増強は MoCo の性能を劣化させるが、LooC は回転から得られる情報利得をより効果的に活用する。
テクスチャー増強は IN-C-100 で頑健性を向上させ、回転とテクスチャを組み合わせると現実世界および破損データセットの両方で利得を生む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。