[論文レビュー] VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
VisionLLM は画像を異言語として扱い、言語誘導の画像トークナイザーと統一された言語指示を用いた LLM ベースのオープンエンドデコーダを活用して、オープンエンドの視覚中心タスクを高い一般化能力で実行します。COCOでの mAP が 60% 超、視覚言語タスクで競争力のある結果を達成します。
Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.
研究の動機と目的
- NLPのLLMに倣い、オープンエンドな視覚中心タスク処理の必要性を動機づける。
- 柔軟なカスタマイズのために、視覚タスクを言語指示に整合させる統一フレームワークを提案する。
- 言語認識可能な視覚トークンを生成する言語誘導画像トークナイザーを開発する。
- 指示からタスクを実行する LLM ベースのオープンエンドタスクデコーダを導入する。
- 構成可能な粒度で複数の視覚中心タスクに対する一般化を示す。
提案手法
- 視覚のみおよび視覚-言語タスクをカバーする統一された言語指示を導入する。
- クロスアテンションとマルチスケール変換器を介して視覚特徴と言語プロンプトを融合し、M 個の画像トークンを生成する言語誘導画像トークナイザーを設計する。
- 視覚指向トークンとクエリとしての出力形式デコード方式を持つ LLM(LoRA を用いた Alpaca-7B)を拡張して、さまざまなタスクに対応する。
- 離散的な局所化トークンと意味論を問わないクラストークンを追加し、統一トークン生成フレームワークでオープンエンド予測を可能にする。
- 2 段階で訓練する: (i) 固定された LLM で視覚バックボーンとトークナイザーを事前訓練し、ランダムカテゴリで検出に焦点を当てる、 (ii) すべてのタスクに共通の監督を用いて共同訓練。
- 効率的なファインチューニングのために LoRA を採用し、視覚と言語の出力を監督するためにクロスエントロピー損失を活用する。
![(a) Vision generalist models [ 59 , 61 , 83 ] are constrained by the format of pre-defined tasks.](https://ar5iv.labs.arxiv.org/html/2305.11175/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1言語指示を介して diverse vision-centric タスクに対して LLM ベースのオープンエンドデコーダを効果的に使用できるか?
- RQ2タスクのカスタマイズ(対象物のターゲットと出力形式)を、タスク固有のヘッドなしに言語プロンプトでどの程度制御できるか?
- RQ3言語誘導画像トークナイザーは、検出、セグメンテーション、グラウンディング、キャプション生成、VQA に渡る跨モダリティの整合とタスク性能にどう影響するか?
- RQ4統一された視覚-言語フレームワークにおける単一タスク訓練とマルチタスク訓練のトレードオフは?
- RQ5出力形式をクエリとしてデコードする方式は、視覚タスクの効率と性能にどのような影響を与えるか?
主な発見
- VisionLLM は、言語指示を用いて、物体検出、インスタンスセグメンテーション、視覚的グラウンディング、画像キャプション生成、VQA を含む複数の視覚中心タスクで高い性能を達成します。
- ResNet-50 バックボーンと VisionLLM で検出の 44.6 mAP、64.0 AP50、48.1 AP75 および関連指標を達成し、より高性能な InternImage-H バックボーンを使用すると COCO で 60.2 mAP に達し、最先端検出モデルに近い。
- モデルは強力な視覚的グラウンディングを示し、RefCOCO バリデーションで ResNet-50 に対して 80.6 P@0.5、InternImage-H に対しては 86.7 P@0.5 を達成。
- 画像キャプション生成では、Backbone を問わず BLEU-4 が約 31.0–32.1、CIDEr が約 112–114 となり、視覚言語ベースラインと競合性を示す。
- フレームワークは、ターゲットクラスを変更(最大80)し、出力点の数を 8–24 の範囲で変化させつつ、合理的な AP スコアを維持するという細粒度のカスタマイズをサポートします。
- テキストエンコーダ(BERT)とクロスアテンションを備えた言語誘導画像トークナイザーは、代替手法に比べて整合とトークナイズを改善します。
![(b) Visual prompt tuning [ 26 , 64 , 62 ] are inconsistent with the format of LLMs.](https://ar5iv.labs.arxiv.org/html/2305.11175/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。