Skip to main content
QUICK REVIEW

[論文レビュー] Text-Only Training for Image Captioning using Noise-Injected CLIP

David Nukrai, Ron Mokady|arXiv (Cornell University)|Nov 1, 2022
Multimodal Machine Learning Applications被引用数 4
ひとこと要約

本稿では、画像キャプション生成のためのテキストオンリー学習手法CapDecを提案する。この手法は、固定されたCLIPのテキストエンコーダーと、テキストデータのみで学習される可学習デコーダーを活用する。訓練中にCLIP埋め込みにノイズを注入することで、視覚と言語の間のモダリティギャップを軽減し、画像とテキストのペairedデータを一切使用しないまま、4つのベンチマーク(スタイル変換を含む)で最先端のゼロショット画像キャプション性能を達成する。

ABSTRACT

We consider the task of image-captioning using only the CLIP model and additional text data at training time and no additional captioned images. Our approach relies on the fact that CLIP is trained to make visual and textual embeddings similar. Therefore, we only need to learn how to translate CLIP textual embeddings back into text, and we can learn how to do this by learning a decoder for the frozen CLIP text encoder using only text. We argue that this intuition is "almost correct" because of a gap between the embedding spaces, and propose to rectify this via noise injection during training. We demonstrate the effectiveness of our approach by showing SOTA zero-shot image captioning across four benchmarks, including style transfer. Code, data, and models are available at https://github.com/DavidHuji/CapDec.

研究の動機と目的

  • 訓練中にペア化された画像・テキストデータを一切必要とせず、CLIPとテキストオンリーコーパスに依存する画像キャプション生成手法の開発。
  • CLIPにおける視覚的・言語的埋め込みのドメインギャップを解消し、画像埋め込みを直接自然言語のキャプションにデコード可能にする。
  • 目的のスタイルの未ペアなテキスト例を活用することで、画像キャプションにおけるゼロショットスタイル変換を可能にする。
  • ノイズ注入によるテキストオンリー事前学習が、教師あり手法と比較して競争力のある性能を達成できることを示す。

提案手法

  • テキストのみのコーパスと画像を一切使用せず、CLIPテキスト埋め込みから入力キャプションを再構築するテキストオンリーのデコーダーネットワークを学習する。
  • 訓練中にCLIPテキスト埋め込みにノイズを注入することで、埋め込み空間内に頑健なボール状の領域を形成し、一般化性能を向上させ、モダリティギャップを低減する。
  • エンタープライズのマッピングヘッドと事前学習済みの自己回帰的言語モデルを用いて、エンドツーエンドでデコーダーを学習し、自然で一貫性のあるキャプションを生成する。
  • 推論時、固定されたCLIP画像エンコーダーが入力画像を処理し、学習済みのデコーダーが画像埋め込みから直接キャプションを生成する。
  • ノイズ注入戦略は、同じ画像のキャプション間の埋め込み差分の平均無限大ノルムを用いて経験的に最適化され、最適なノイズ標準偏差 ϵ = √0.016 が得られた。
  • 本手法は、標準的・クロスドメイン・スタイルガイドドキャプションベンチマークで評価され、強力なゼロショット性能を示した。

実験結果

リサーチクエスチョン

  • RQ1CLIPのようなビジョン・ランゲージモデルを、ペア化された画像・テキスト例を一切使用せず、テキストデータのみで画像キャプションに適応可能か?
  • RQ2CLIPの視覚的・言語的埋め込み間のモダリティギャップを効果的に軽減することで、画像埋め込みから正確なキャプションを生成可能か?
  • RQ3訓練中にノイズ注入を行うことで、テキストオンリーデコーダーのロバスト性と一般化性能が向上するか?
  • RQ4このアプローチは、そのスタイルの未ペアなテキスト例のみを用いて、多様なスタイルの高品質なキャプションを生成可能か?
  • RQ5本手法は、既存のゼロショットおよび教師ありキャプションベースラインと比較して、性能および一般化能力において優れているか?

主な発見

  • CapDecは、標準的・クロスドメイン・スタイルガイドドキャプションタスクを含む4つのベンチマークで、最先端のゼロショット画像キャプション性能を達成した。
  • 既存のテキストオンリーおよびゼロショットアプローチ、特に同時期のSuら(2022)の研究を上回る、優れた経験的結果を示した。
  • ノイズ注入は顕著に性能を向上させたが、テキスト再構築ベースラインではノイズに利益がなかったため、ノイズが一般正則化ではなく、モダリティギャップ補正に特化した役割を果たしていることが示された。
  • 平均埋め込みシフトによるオフセット補正は、ノイズ注入より劣った性能を示したため、モダリティギャップは単純な線形シフトでは完全に捉えきれない複雑な性質であることが示唆された。
  • 本手法はスタイル変換に対しても有効である:そのスタイルの未ペアなテキスト例のみを用いて、任意の目的のスタイルのキャプションを生成可能である。
  • 強力な性能を示したが、完全に教師ありベースラインに比べて性能が劣るため、テキストオンリー学習パラダイムにおけるさらなる改善の余地がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。