Skip to main content
QUICK REVIEW

[論文レビュー] Prismer: A Vision-Language Model with Multi-Task Experts

Shikun Liu, Linxi Fan|arXiv (Cornell University)|Mar 4, 2023
Multimodal Machine Learning Applications被引用数 15
ひとこと要約

Prismer は、凍結された事前訓練済みタスク専門家のアンサンブルと、軽量な訓練可能コンポーネントを組み合わせて、はるかに少ないデータで競争力のある多モーダル推論を実現するデータおよびパラメータ効率の高い視覚と言語モデルです。ファインチューニング型および少数-shot の性能を、キャプション生成、VQA、画像分類タスクで強く示しています。

ABSTRACT

Recent vision-language models have shown impressive multi-modal generation capabilities. However, typically they require training huge models on massive datasets. As a more scalable alternative, we introduce Prismer, a data- and parameter-efficient vision-language model that leverages an ensemble of task-specific experts. Prismer only requires training of a small number of components, with the majority of network weights inherited from multiple readily-available, pre-trained experts, and kept frozen during training. By leveraging experts from a wide range of domains, we show Prismer can efficiently pool this expert knowledge and adapt it to various vision-language reasoning tasks. In our experiments, we show that Prismer achieves fine-tuned and few-shot learning performance which is competitive with current state-of-the-arts, whilst requiring up to two orders of magnitude less training data. Code is available at https://github.com/NVlabs/prismer.

研究の動機と目的

  • トレーニングデータとパラメータ要件を削減する、スケーラブルでデータ効率の高いビジョンと言語のアプローチを推進する。
  • 事前訓練済みでドメイン固有の専門家のアンサンブルを活用して、ビジョンと言語推論に補助知識を注入する。
  • 凍結されたバックボーンと多様な専門家信号を組み合わせる、軽量で訓練可能な統合機構を開発する。

提案手法

  • クロスアテンションを用いてテキストを生成する、2つのバックボーンを持つエンコーダ-デコーダ(ビジョンエンコーダと自己回帰言語デコーダ)を使用する。
  • タスク固有の畳み込み茎と後処理を介して、6つの事前訓練タスク専門家(深度、法線、エッジ、オブジェクト/セグメンテーション/OCRラベル)を補助信号として組み込む。
  • 変動するマルチタスク信号を固定長のトークンセットにマッピングするExperts Resamplerを導入し、自己注意を効率化する。
  • 各トランスフォーマー層に軽量なAdaptorを追加して、ビジョンと言語のバックボーンをマルチタスク特徴で条件付けする。
  • 事前学習済み知識を保持し、トレーニング要件を最小化するため、専門家のウェイトの大半を凍結する。
  • 次のテキストトークンを予測する単一の自己回帰目的で訓練し、エンドツーエンド最適化を効率化する。

実験結果

リサーチクエスチョン

  • RQ1凍結されたドメイン固有の専門家のモジュラリティと、軽量なアダプターを組み合わせることで、限られたトレーニングデータで競争力のあるビジョンと言語の推論を達成できるだろうか。
  • RQ2マルチタスクの専門家信号がキャプション生成、VQA、画像分類タスクの性能にどのように影響するか。
  • RQ3専門家の数と品質が学習効率とロバスト性に及ぼす影響はどのようなものか。
  • RQ4Prismer のゼロショットおよびファーストショットの性能は、より大きくデータを要するビジョンと言語モデルと比較してどうか。

主な発見

  • Prismer と PrismerZ は、ベースラインの多くと同等かそれより小さなモデルサイズで競争力の性能を達成し、訓練データは最大で2桁分の少なさで済む。
  • COCOとNoCapsでのゼロショット画像キャプションは、はるかに多くのデータで訓練された複数の大規模モデルを上回り、例: Prismer BASE/LARGE はNoCapsでいくつかのベースラインを上回りつつ、データ量を減らしている。
  • タスク専門家の追加はキャプションとVQAで追加の利得をもたらし、特にLARGEバリアントで顕著。
  • Prismer の少数ショット ImageNet 分類は、ベースのビジョンバックボーンを上回る強い改善を示し、マルチモーダルトレーニングからの有益な一般化を示している。
  • Prismer はノイズのある専門家への頑健性と、専門家の数・品質が増えるほど性能が向上することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。