QUICK REVIEW

[論文レビュー] VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

Jiannan Wu, Muyan Zhong|arXiv (Cornell University)|Jun 12, 2024

Multimodal Machine Learning Applications被引用数 5

ひとこと要約

VisionLLM v2 は、知覚、理解、生成を統合するエンドツーエンドの汎用的マルチモーダル LLM であり、新規の super-link 機構を介して複数のタスクデコーダと接続され、数百の vision-language タスクをまたぐエンドツーエンド訓練を可能にする。

ABSTRACT

We present VisionLLM v2, an end-to-end generalist multimodal large model (MLLM) that unifies visual perception, understanding, and generation within a single framework. Unlike traditional MLLMs limited to text output, VisionLLM v2 significantly broadens its application scope. It excels not only in conventional visual question answering (VQA) but also in open-ended, cross-domain vision tasks such as object localization, pose estimation, and image generation and editing. To this end, we propose a new information transmission mechanism termed "super link", as a medium to connect MLLM with task-specific decoders. It not only allows flexible transmission of task information and gradient feedback between the MLLM and multiple downstream decoders but also effectively resolves training conflicts in multi-tasking scenarios. In addition, to support the diverse range of tasks, we carefully collected and combed training data from hundreds of public vision and vision-language tasks. In this way, our model can be joint-trained end-to-end on hundreds of vision language tasks and generalize to these tasks using a set of shared parameters through different user prompts, achieving performance comparable to task-specific models. We believe VisionLLM v2 will offer a new perspective on the generalization of MLLMs.

研究の動機と目的

出力がテキストだけでない数百の vision および vision-language タスクを扱う、エンドツーエンドの汎用的なマルチモーダル LLM の構築を目指す。
LLM と複数のタスク固有デコーダを接続する頑健な情報伝送機構を導入する。
共有パラメータで広範なタスクカバレッジを実現するため、多様な vision-language データを厳選・共同訓練する。
知覚、理解、生成タスク全般で、タスク特化モデルや専門モデルと対等または優位な性能を示す。

提案手法

ルーティングトークン（例: [DET], [POSE], [GEN]）を用いた super-link 機構と、ルーティングトークンの後に付与された学習可能な super-link クエリを提案し、デコーダへタスク情報を伝送する。
4部構成のアーキテクチャを使用: 画像エンコーダと領域エンコーダ、大規模言語モデル（Vicuna-7B）、タスク固有デコーダ（Grounding DINO, UniPose, Stable Diffusion, InstructPix2Pix）、および super-link ブリッジ。
テキストプロンプトを LLM を通して処理し、テキスト特徴を計算する; 画像特徴は vision foundation model を介して抽出する; 視覚プロンプトを融合してタスクの領域埋込みを得る。
3 段階で訓練する: マルチモーダル事前学習/指示チューニング（VisionLLM v2-Chat）、デコーダを伴うマルチ容量ファインチューニング、固定コンポーネントを用いたデコーダ限定ファインチューニング。
エンドツーエンドのマルチタスク最適化を可能にしつつ、強い VQA 能力を維持するために三段階のトレーニングパイプラインを採用する。

実験結果

リサーチクエスチョン

RQ1単一の汎用 MLLM は数百の vision-language タスクを、タスク固有モデルと同等の性能で達成できるか？
RQ2super-link 機構は、タスク衝突を回避しつつ、LLMと複数のデコーダ間でエンドツーエンド訓練と効果的な勾配伝播を可能にするか？
RQ3多様なデータセットを横断した共同訓練は、異なる領域にわたる知覚、理解、生成タスクの性能にどう影響するか？

主な発見

VisionLLM v2-Chat と VisionLLM v2 は、複数のベンチマークでタスク特化モデルと競合する性能を達成する。
マルチモーダル対話ベンチマークで、VisionLLM v2-Chat は同等のパラメータ規模でいくつかのベースラインを上回る（例: MMBench-EN/CN で +9.7 および +7.0）。
モデルは強力な領域認識と視覚的常識推論を達成する。例えば VisionLLM v2-Chat は VCR で fine-tuning なしで 82.9% Q→AR を達成。
物体検出とインスタンスセグメンテーションでは、Swin-T を用いた VisionLLM v2 は COCO で 56.3 AP_b および 47.8 AP_m に到達し、いくつかの ResNet50 ベース手法を上回る。
姿勢推定では、VisionLLM v2 は UniPose-T と競争力のある結果を達成し、CrowdPose および AP-10K データセットで高い性能を示す。
定性的結果は、高視覚品質の生成とバイリンガルのゼロショット生成能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。