[論文レビュー] Multimodal Few-Shot Learning with Frozen Language Models
Frozenは、事前学習済みの凍結された言語モデルを視覚エンコーダを訓練して視覚プレフィクスを生成させ、その言語モデルが注意を向けるようにすることで、ゼロショットおよび少数ショットのマルチモーダル学習を実現し、言語モデル自体の更新を行わずに multimodal learning.
When trained at sufficient scale, auto-regressive language models exhibit the notable ability to learn a new language task after being prompted with just a few examples. Here, we present a simple, yet effective, approach for transferring this few-shot learning ability to a multimodal setting (vision and language). Using aligned image and caption data, we train a vision encoder to represent each image as a sequence of continuous embeddings, such that a pre-trained, frozen language model prompted with this prefix generates the appropriate caption. The resulting system is a multimodal few-shot learner, with the surprising ability to learn a variety of new tasks when conditioned on examples, represented as a sequence of multiple interleaved image and text embeddings. We demonstrate that it can rapidly learn words for new objects and novel visual categories, do visual question-answering with only a handful of examples, and make use of outside knowledge, by measuring a single model on a variety of established and new benchmarks.
研究の動機と目的
- 言語モデルをファインチューニングせずに、少数ショットの言語モデル能力を視覚言語のマルチモーダルタスクへ拡張する動機付け。
- 画像とテキスト入力を交互に含む文脈内 prompting による新しいマルチモーダルタスクへの迅速な適応を可能にする。
- 凍結された言語モデルが百科事典的知識を視覚タスクに活用し、語を視覚概念に素早く結びつけることを示す。
- VQA、OKVQA、miniImageNet などを含む多様なベンチマークで、オープンエンド生成における少数ショット学習能力を実証する。
提案手法
- 凍結された重みを持つ事前学習済みの7B autoregressive 言語モデル(Transformer)を使用する。
- 視覚エンコーダ(NF-ResNet-50)を訓練し、言語モデルと互換性のある視覚プレフィクスを形成する埋め込み列を出力させる。
- 視覚エンコーダ出力を線形写像でD次元埋め込みに変換し、n個のトークンに再形成して視覚プレフィクスを作る。
- 凍結された言語モデルを通して勾配を逆伝播させ、訓練するのは視覚エンコーダのパラメータのみ。
- プロンプト内で画像埋め込みとテキスト埋め込みを交互化し、複数画像に対して相対的位置エンコーディングを活用する。
- オープンエンドの生成設定でゼロショットおよび少数ショットのシナリオを横断的に評価し、トークンベースの生成品質を正解と比較して測定する。
実験結果
リサーチクエスチョン
- RQ1訓練可能な視覚エンコーダによって生成された視覚プレフィクスで条件付けされた場合、凍結された大型言語モデルは適切なマルチモーダル出力を生成できるか?
- RQ2画像とテキストの交互列を用いた prompting は、マルチモーダルタスク(VQA、キャプショニング、カテゴリー結びつけ)でゼロショットおよび少数ショット学習を可能にするか?
- RQ3タスク固有のファインチューニングなしで、視覚タスク(例:OKVQA)に対してモデルは百科事典的知識をどの程度活用するか?
- RQ4few-shot 条件付けの下で、fast concept binding タスク(miniImageNet open-ended および real-name variant)でのモデルのパフォーマンスはどうか?
主な発見
| n-shot 精度 | n=0 | n=1 | n=4 | τ |
|---|---|---|---|---|
| Frozen | 29.5 | 35.7 | 38.2 | ✗ |
| Frozen_scratch | 0.0 | 0.0 | 0.0 | ✗ |
| Frozen_finetuned | 24.0 | 28.2 | 29.2 | ✗ |
| Frozen_train-blind | 26.2 | 33.5 | 33.3 | ✗ |
| Frozen_VQA | 48.4 | – | – | ✓ |
| Frozen_VQA-blind | 39.1 | – | – | ✓ |
| Oscar [23] | 73.8 | – | – | ✓ |
- Zero-shot transfer from image captioning to VQA outperforms a blind baseline and baseline finetuning, with Frozen achieving 29.5/35.7/38.2 across 0/1/4 shots on VQAv2 (Table 1).
- Few-shot prompts improve VQA performance, approaching but not matching SGD training (e.g., 38.2% with four examples vs 48.4% with full VQA training, Table 1).
- Performance on OKVQA scales with language model size, indicating encyclopedic knowledge contributes to multimodal reasoning without directly training on OKVQA.
- Open-Ended miniImageNet results show substantial gains with higher inner-shots and more varied exemplars, demonstrating fast-binding of novel words to visual categories (Table 3).
- Fast-VQA and Real-Fast-VQA indicate the model can incorporate recently learned words into multimodal questions, with performance improving as inner-shots increase (Table 5).
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。