QUICK REVIEW

[論文レビュー] Understanding the Behaviour of Contrastive Loss

Feng Wang, Huaping Liu|arXiv (Cornell University)|Dec 15, 2020

Domain Adaptation and Few-Shot Learning参考文献 37被引用数 24

ひとこと要約

本稿は自己教師付き表現学習における対照的損失の挙動を調査し、温度制御を通じて困難なネガティブサンプルを優先するハードネスに配慮した損失であることを明らかにした。均一性と許容性のジレンマを特定した。高めの均一性は特徴の分離性を向上させるが、意味的に類似したサンプルに対する過剰なペナルティは下流の性能を損なう。主な貢献は、温度調整による均一性と許容性のバランスを最適化することで最適な性能が達成されることを示したことであり、CIFARおよびImageNetベンチマークでは0.2–0.3の温度が最良の結果をもたらした。

ABSTRACT

Unsupervised contrastive learning has achieved outstanding success, while the mechanism of contrastive loss has been less studied. In this paper, we concentrate on the understanding of the behaviours of unsupervised contrastive loss. We will show that the contrastive loss is a hardness-aware loss function, and the temperature τ controls the strength of penalties on hard negative samples. The previous study has shown that uniformity is a key property of contrastive learning. We build relations between the uniformity and the temperature τ . We will show that uniformity helps the contrastive learning to learn separable features, however excessive pursuit to the uniformity makes the contrastive loss not tolerant to semantically similar samples, which may break the underlying semantic structure and be harmful to the formation of features useful for downstream tasks. This is caused by the inherent defect of the instance discrimination objective. Specifically, instance discrimination objective tries to push all different instances apart, ignoring the underlying relations between samples. Pushing semantically consistent samples apart has no positive effect for acquiring a prior informative to general downstream tasks. A well-designed contrastive loss should have some extents of tolerance to the closeness of semantically similar samples. Therefore, we find that the contrastive loss meets a uniformity-tolerance dilemma, and a good choice of temperature can compromise these two properties properly to both learn separable features and tolerant to semantically similar samples, improving the feature qualities and the downstream performances.

研究の動機と目的

対照的損失の自己教師付き表現学習における挙動的メカニズムを理解すること。
温度τがハードネスに配慮した特性と埋め込み分布の性質を制御する役割を分析すること。
埋め込み分布の均一性と意味的に類似したサンプルに対する許容性の間のトレードオフを同定すること。
インスタンス識別目的が本質的に類似したサンプルを分離させることで意味的構造を損なうことを示すこと。

提案手法

温度τがハードネガティブサンプルに対するペナルティ強度を調整するハードネスに配慮した関数として対照的損失を分析すること。
温度τを埋め込みの均一性と意味的に類似したサンプルに対する許容性への影響を調査する代理指標として用いること。
CIFAR10, CIFAR100, SVHN, および ImageNet100で、それぞれ式10と式11を用いて均一性と許容性を測定すること。
標準的な対照的損失（式1）とハード対照的損失（式9）を用いて、異なるτ設定下での性能を比較すること。
複数のデータセットで線形分類精度を下流タスクのパフォーマンスの代理指標として評価すること。
温度スケーリングなしの単純な対照的損失（式3, τ→∞）と、それに対して明示的なハードネガティブサンプリングを組み合わせた場合を比較し、ハードネスに配慮した特性の重要性を隔離すること。

実験結果

リサーチクエスチョン

RQ1温度τは、分離可能な特徴を学習する際、対照的損失のハードネスに配慮した特性にどのように影響するか？
RQ2対照学習において、埋め込み分布の均一性と意味的に類似したサンプルに対する許容性の間のトレードオフは何か？
RQ3特徴の分離性を向上させるにもかかわらず、均一性の過剰な追求がなぜ下流のパフォーマンスを劣化させるのか？
RQ4明示的なハードネガティブサンプリングを組み合わせた場合、温度スケーリングなしの単純な対照的損失が競争力のある性能を達成できるか？
RQ5インスタンス識別目的は、なぜ対照学習において元の意味的構造を保存できないのか？

主な発見

CIFAR10, CIFAR100, SVHN, および ImageNet100で、温度τ=0.2または0.3で学習したモデルが線形分類精度が最も高く、均一性と許容性の最適なバランスが達成されたことが示された。
小さな温度（例：τ=0.07）は非常に均一な分布をもたらすが、意味的に類似したサンプルに対するペナルティが過剰になり、特徴の品質が損なわれる。
大きな温度（例：τ=0.2）は類似サンプルに対する許容性を高めるが、均一性が低下し、結果として分離性が低い特徴が得られる。
標準的な対照的損失（式1）をτ=0.2で使用した場合、CIFAR10で83.27%の線形精度を達成し、ハードネスに配慮しない単純な損失（74.83%）を上回った。
明示的なハードネガティブサンプリングにより、単純な対照的損失（式3）が競争力のある結果（SVHNで95.47%）を達成でき、ハードネスに配慮した特性が成功の核心であることを実証した。
ハード対照的損失（式9）は均一性と許容性のジレンマを緩和し、大きなτでも優れた性能を達成できた。これは明示的なマイニングにより均一性が維持されたためである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。