Skip to main content
QUICK REVIEW

[論文レビュー] On Mutual Information in Contrastive Learning for Visual Representations

Mike Wu, Chengxu Zhuang|arXiv (Cornell University)|May 27, 2020
Advanced Image and Video Retrieval Techniques参考文献 19被引用数 49
ひとこと要約

本論文は情報理論的視点から対照学習を扱い、IR、LA、CMC および関連手法が画像ビュー間の相互情報の下限であることを示す; 柔軟なネガティブサンプル戦略(VINCE, BALL, RING, CAVE)を導入し、それらが視覚タスク全体での転移性能を向上させることを示す。

ABSTRACT

In recent years, several unsupervised, "contrastive" learning algorithms in vision have been shown to learn representations that perform remarkably well on transfer tasks. We show that this family of algorithms maximizes a lower bound on the mutual information between two or more "views" of an image where typical views come from a composition of image augmentations. Our bound generalizes the InfoNCE objective to support negative sampling from a restricted region of "difficult" contrasts. We find that the choice of negative samples and views are critical to the success of these algorithms. Reformulating previous learning objectives in terms of mutual information also simplifies and stabilizes them. In practice, our new objectives yield representations that outperform those learned with previous approaches for transfer to classification, bounding box detection, instance segmentation, and keypoint detection. % experiments show that choosing more difficult negative samples results in a stronger representation, outperforming those learned with IR, LA, and CMC in classification, bounding box detection, instance segmentation, and keypoint detection. The mutual information framework provides a unifying comparison of approaches to contrastive learning and uncovers the choices that impact representation learning.

研究の動機と目的

  • 対照的な視覚表現学習を相互情報(MI)界の下限で統一的に捉える情報理論的視点を提供する。
  • データ拡張(ビュー)とネガティブサンプルの選択が表現の品質に重大な影響を与えることを示す。
  • 下限(InfoNCE および VINCE)を導出・分析し、既存手法(IR、LA、CMC、SimCLR)と結びつける。
  • 転移性能を向上させる新しいネガティブサンプル戦略(BALL、RING、CAVE)とアニーリングを提案・評価する。

提案手法

  • MI推定量として対照的な目的関数を定式化し、制限分布からネガティブサンプルを許容する InfoNCE の一般化(VINCE)を含む。
  • 拡張されたビューとメモリーバンクの定式化の下で、IRとCMCの同値性を示し、安定性のためにメモリーフリーな(IR-nce)変種へ簡略化する。
  • 現在のビューの周りの制約領域(ボール/リング)からネガティブをサンプルする BALL、RING、CAVE のネガティブサンプル方式を導入・分析する。
  • ネガティブ分布パラメータのアニーリングを提案し、学習信号と安定性をバランスさせる。
  • Local Aggregation(LA)を VINCE に関連づけ、加重ビュー集合間の MI を LA が下界である条件を導出する。
  • 実用的な変種(LA-nce、BALL Lab など)を提供し、安定性と性能への関連を示す。

実験結果

リサーチクエスチョン

  • RQ1対照学習におけるビュー(拡張)選択は学習された表現の品質にどのように影響するか?
  • RQ2ネガティブサンプルの分布は相互情報の界と下流の転移性能にどう影響するか?
  • RQ3MIベースの目的で IR、LA、CMC を統一できるか、そしてこの視点からどんな実践的変種が生まれるか?
  • RQ4制約付き(ボール/リング/洞窟)ネガティブサンプル戦略は、標準の InfoNCE と比較して画像分類や検出のような転移タスクを改善するか?
  • RQ5ネガティブサンプル分布のアニーリングは学習の安定化と改善にどのように寄与するか?

主な発見

モデルTop1
IR64.3
IR-nce81.2
LA81.8
LA-nce82.3
BALL81.4
BALL-Lab85.7
BALL-anneal82.1
BALL-Lab+anneal86.8
BALL-s-neigh75.1
BALL-Lab+s-neigh63.3
BALL-s-neigh+anneal84.8
BALL-Lab+s-neigh+anneal87.0
CAVE81.4
CAVE-Lab86.1
CAVE-anneal84.8
CAVE-Lab+anneal87.8
RING84.7
RING-Lab87.3
RING-s-neigh76.6
RING-Lab+s-neigh68.0
RING-anneal85.2
RING-Lab+anneal87.6
RING-Lab+s-neigh+anneal87.8
  • 相互情報の視点は IR、LA、CMC、および SimCLR が画像ビュー間の MI の下界であり、InfoNCE が主要な推定量であることを示す。
  • より難しく情報量の多いネガティブサンプル(BALL、RING、CAVE)は IR-nce を上回る転移性能を CIFAR10、ImageNet および COCO ベースのタスクで向上させる。
  • IR を InfoNCE に単純化すると安定性が向上し、場合によっては性能も改善される;メモリーバンクは設定によっては削除しても損失がない。
  • 変分的ネガティブサンプリング(VINCE)の導入により LA と MI の新たな結びつきが生まれ、LA は BALL/VINCE によって下界であることを示す。
  • ネガティブサンプル分布のアニーリングはさらなる改善をもたらし、複数の転移タスクで最先端に近い性能を達成する。
  • 報告された最良の変種(例:RING Lab+s-neigh+anneal)は、IR、LA、CMC を複数のタスクで上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。