Skip to main content
QUICK REVIEW

[論文レビュー] UniCLIP: Unified Framework for Contrastive Language-Image Pre-training

Janghyeon Lee, Jong‐Suk Kim|arXiv (Cornell University)|Sep 27, 2022
Multimodal Machine Learning Applications被引用数 21
ひとこと要約

UniCLIP は単一の埋め込み空間でドメイン間およびドメイン内のコントラスト学習を統一し、augmentation-aware embeddings、MP-NCE loss、およびドメイン依存の類似性を導入して、下流タスク全体にわたる視覚–言語事前学習を向上させる。

ABSTRACT

Pre-training vision-language models with contrastive objectives has shown promising results that are both scalable to large uncurated datasets and transferable to many downstream applications. Some following works have targeted to improve data efficiency by adding self-supervision terms, but inter-domain (image-text) contrastive loss and intra-domain (image-image) contrastive loss are defined on individual spaces in those works, so many feasible combinations of supervision are overlooked. To overcome this issue, we propose UniCLIP, a Unified framework for Contrastive Language-Image Pre-training. UniCLIP integrates the contrastive loss of both inter-domain pairs and intra-domain pairs into a single universal space. The discrepancies that occur when integrating contrastive loss between different domains are resolved by the three key components of UniCLIP: (1) augmentation-aware feature embedding, (2) MP-NCE loss, and (3) domain dependent similarity measure. UniCLIP outperforms previous vision-language pre-training methods on various single- and multi-modality downstream tasks. In our experiments, we show that each component that comprises UniCLIP contributes well to the final performance.

研究の動機と目的

  • 1つの空間にドメイン内外のコントラスト損失を統合し、データ効率の高い視覚–言語事前学習を推進する。
  • 画像とテキストモダリティを結合する際のデータ拡張によるミスマッチに対処する。
  • ドメインを跨ぐ複数の正例ペアのバランスを取る学習手法を開発する。
  • 下流タスクで統一フレームワークの有効性を示す。

提案手法

  • augmentationエンコーダ fA を用いてデータ拡張の効果をベクトルとして捉える。
  • 画像エンコーダ fI をデータ拡張非依存にし、射影ヘッド gI をデータ拡張対応とする。
  • テキストエンコーダ fT と射影ヘッド gT を用いて同じ空間上にテキスト埋め込みを生成する。
  • ドメイン固有の重みを用いて、ドメイン内外の正例ペアを含む複数の正例対を扱う MP-NCE ロスを導入する。
  • ドメインごとに温度とオフセットを設定したドメイン依存の類似度スコアを採用し、ドメイン間・ドメイン内の類似度を揃える。
  • s_{i,j} = exp((1/τ_{D(i,j)})(z_i^⊤ z_j / (||z_i|| ||z_j||) - b_{D(i,j)})).

実験結果

リサーチクエスチョン

  • RQ1単一の統一埋め込み空間は、ドメイン内およびドメイン間のコントラスト目的の両方を効果的に収容できるか。
  • RQ2データ拡張によるミスマッチがクロスモーダルコントラスト学習に与える影響はどうで、どのように緩和できるか。
  • RQ3 augmentation-aware 埋め込み、MP-NCE ロス、およびドメイン依存の類似性は、既存手法と比較してデータ効率と下流性能を向上させるか。
  • RQ4複数のモダリティとタスクに跨る全体的な性能に対する各 UniCLIP コンポーネントの寄与は何か。

主な発見

  • UniCLIP はさまざまな単一モダリティおよびマルチモダリティの下流タスクで、従来の視覚–言語事前学習法を上回る。
  • 実験で示されるように、UniCLIP の各コンポーネントは最終性能に寄与する。
  • MP-NCE は単一空間における容易な正例ペアと難易度の高い正例ペアの両方の安定した学習を可能にする。
  • ドメイン依存の類似度測度により、異なるドメイン組み合わせが適切な類似度スケールを持つようになる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。