[論文レビュー] $f$-MICL: Understanding and Generalizing InfoNCE-based Contrastive Learning
本論文は InfoNCE を f-相互情報量(f-MICL)へ一般化し、f-発散を用いた新しい f-ガウシアン類似度を導入し、さまざまなアーキテクチャを用いた視覚・言語ベンチマークで実証的な利得を示す。
In self-supervised contrastive learning, a widely-adopted objective function is InfoNCE, which uses the heuristic cosine similarity for the representation comparison, and is closely related to maximizing the Kullback-Leibler (KL)-based mutual information. In this paper, we aim at answering two intriguing questions: (1) Can we go beyond the KL-based objective? (2) Besides the popular cosine similarity, can we design a better similarity function? We provide answers to both questions by generalizing the KL-based mutual information to the $f$-Mutual Information in Contrastive Learning ($f$-MICL) using the $f$-divergences. To answer the first question, we provide a wide range of $f$-MICL objectives which share the nice properties of InfoNCE (e.g., alignment and uniformity), and meanwhile result in similar or even superior performance. For the second question, assuming that the joint feature distribution is proportional to the Gaussian kernel, we derive an $f$-Gaussian similarity with better interpretability and empirical performance. Finally, we identify close relationships between the $f$-MICL objective and several popular InfoNCE-based objectives. Using benchmark tasks from both vision and natural language, we empirically evaluate $f$-MICL with different $f$-divergences on various architectures (SimCLR, MoCo, and MoCo v3) and datasets. We observe that $f$-MICL generally outperforms the benchmarks and the best-performing $f$-divergence is task and dataset dependent.
研究の動機と目的
- KL ベースの相互情報量(InfoNCE)を超えて、より広い f-相互情報量(f-MICL)へ対比学習を拡張する。
- コサイン類似度の代替が対比目的でより良い性能を発揮するかを検討する。
- 特徴量の結合分布に関する仮定の下で、実用的な f-ガウシアン類似度を開発する。
- データセット、アーキテクチャ、モダリティを横断して f-MICL の実証的利点を示す。
- 既存の InfoNCE ベースの目的関数との関連を示し、アライメントや一様性といった理論的性質を提供する。
提案手法
- MI を f-MI フレームワークへ一般化し、対比学習の最適化のための変分下界を導出する。
- f-MICL 目的を提案する: max_{s in F} E_{(x,y)~p+} s(g(x),g(y)) - E_{(x,y)~p×} f*∘s(g(x),g(y)).
- 実用的な類似度として、f-Gaussian 類似度 s_f(x^g,y^g) = f'∘G_σ(||x^g - y^g||^2) を導入する。
- 結合特徴密度が単位超球面上のガウスカーネルに比例すると仮定し、f およびガウス事前分布に基づく実用的な s_f を得る。
- Provide empirical estimation for a batch: (1/N)∑ s_f(x_i^g,y_i^g) - (α/(N(N-1)))∑_{i≠j} f*∘s_f(x_i^g,x_j^g).
- 既存の目的関数(InfoNCE、AU、Spectral Contrastive Loss)との関連を示し、アライメント/均一性の性質を論じる。

実験結果
リサーチクエスチョン
- RQ1InfoNCE の KL ベースの目的を、性能を犠牲にすることなく、より広い f-発散のファミリー(f-MICL)へ拡張できるか?
- RQ2コサイン類似度は対比学習における最良の選択か、それとも f-Gaussian や他の類似度関数が結果を改善できるか?
- RQ3InfoNCE から f-MICL フレームワークへ拡張される理論的・実証的性質(アライメントや均一性など)は何か?
- RQ4視覚と言語タスクにおいて、さまざまな f-発散が下流表現に与える影響を評価できるか?
主な発見
- f-MICL は異なる f-発散を通じて目的関数のスペクトルを提供し、多くの場合 InfoNCE と同等またはそれを上回る性能を示す。
- 提案された f-Gaussian 類似度は、テストした f-発散の全てでコサイン類似度を一貫して上回る。
- InfoNCE は f-MICL 目的の上界であり、新しいフレームワークを既存手法に結びつける。
- AU は f-MICL フレームワークの特殊ケースとして示され、アライメントと均一性の性質が f-MICL に拡張されることを示す。
- データセットやタスクごとに好まれる f-発散が異なり、すべての設定を支配する単一の f-発散はない。
- ViT-S を用いた MoCo v3 で CIFAR-10、STL-10、TinyImageNet、ImageNet などのデータセットで、f-Gaussian 類似度が性能を向上させる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。