[論文レビュー] Chain of Thought Prompt Tuning in Vision Language Models
この論文は、視覚言語モデルの推論過程を促すチェイン・オブ・ソート(思考の連鎖)プロンプト調整を提案し、連鎖プロンプト、自適応チェインコントローラ、Meta-Netsを用いて段階的推論を模倣することで、画像分類・検索・VQAタスク全般の一般化を向上させる。
Language-Image Pre-training has demonstrated promising results on zero-shot and few-shot downstream tasks by prompting visual models with natural language prompts. However, most recent studies only use a single prompt for tuning, neglecting the inherent step-to-step cognitive reasoning process that humans conduct in complex task settings, for example, when processing images from unfamiliar domains. Chain of Thought is a simple and effective approximation to human reasoning process and has been proven useful for natural language processing (NLP) tasks. Based on this cognitive intuition, we believe that conducting effective reasoning is also an important problem in visual tasks, and a chain of thought could be a solution to this problem. In this work, we propose a novel chain of thought prompt tuning for vision-language modeling. Extensive experiments show that our method not only generalizes better in image classification tasks, has greater transferability beyond a single dataset, and has stronger domain generalization performance, but also performs much better in imagetext retrieval and visual question answering, which require more reasoning capabilities. We are the first to successfully adapt chain-of-thought prompting that combines visual and textual embeddings. We will release our codes
研究の動機と目的
- 視覚言語プロンプトの一般化を、人間に近い段階的推論を取り入れることで改善することを動機づける。
- 視覚的およびテキスト埋め込みを組み合わせたチェーン・オブ・ソート・プロンプトアーキテクチャを開発する。
- 入力ごとに推論深さを動的に調整する自適応チェインコントローラを導入する。
- ステップ別のバイアスを生成するメタネットの連鎖を組み込み、プロンプトに適用する。
- ベースから新規への一般化、データセット間転移、ドメイン一般化、画像テキスト検索、VQAにおける性能向上を実証する。
提案手法
- 各推論ステップに対応するプロンプトの連鎖を構築し、情報を次のステップへ渡す。
- 各ステップごとにネットワークの連鎖を用いてステップ特異的なバイアスを生成し、元の視覚特徴を保持する残差接続を用いる。
- 入力ごとに出力されるステップ重み lambda_j を持つ自適応チェインコントローラ(線形-ReLU-線形-シグモイド)を導入する。
- 各ステップでプロンプト埋め込みに加わるバイアスを生み出すメタネットの連鎖を採用し、残差に似たアーキテクチャで情報を保持する。
- チェーンの最終プロンプトを予測に用い、視覚エンコーダ・テキストエンコーダは凍結したまま、プロンプト・メタネット・コントローラのみを訓練する。
実験結果
リサーチクエスチョン
- RQ1チェーン・オブ・ソート推論を視覚言語プロンプトと効果的に統合して、一般化と推論を要するタスクを改善できるか。
- RQ2動的で入力にガイドされたチェインコントローラは、未知の概念やドメインへの適応を改善するか。
- RQ3連鎖型のメタネットとプロンプト連鎖は、V-Lタスクにおける単一プロンプトまたは未接続のメタネット手法より優れているか。
主な発見
- 本手法は、ベース-to-new一般化、データセット間転送、ドメイン一般化、画像-テキスト検索、VQAを含む5つのタスクと18データセットで一貫した改善を示す。
- ベース-to-new設定でCoCoOpを上回る11データセットにおけるベース-to-new調和平均スコアを改善。
- データセット間転送では、10データセット中8データセットで最高精度を示し、全10データセットでCoOpより上回る。
- ImageNetで訓練した場合、4つのターゲットデータセットすべてで最良の性能を達成。
- ゼロショットおよびデータ不足の検索・VQA設定で、Flickr30k, MSCOCO, VQAv2において、小規模な訓練データ比率でもCLIPおよびCoCoOpを上回る。
- チェーン長さ3がパフォーマンスと安定性の最適なバランスを取り、動的チェインコントローラがほとんどのデータセットで最良結果をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。