[論文レビュー] GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
GPT4RoIは、領域参照をRoI特徴に置換することで領域テキストデータ上でLLMsを指示チューニングするエンドツーエンドのビジョン-言語モデルであり、領域レベルの理解と対話的な複数ラウンド対話を可能にします。
Visual instruction tuning large language model(LLM) on image-text pairs has achieved general-purpose vision-language abilities. However, the lack of region-text pairs limits their advancements to fine-grained multimodal understanding. In this paper, we propose spatial instruction tuning, which introduces the reference to the region-of-interest(RoI) in the instruction. Before sending to LLM, the reference is replaced by RoI features and interleaved with language embeddings as a sequence. Our model GPT4RoI, trained on 7 region-text pair datasets, brings an unprecedented interactive and conversational experience compared to previous image-level models. (1) Interaction beyond language: Users can interact with our model by both language and drawing bounding boxes to flexibly adjust the referring granularity. (2) Versatile multimodal abilities: A variety of attribute information within each RoI can be mined by GPT4RoI, e.g., color, shape, material, action, etc. Furthermore, it can reason about multiple RoIs based on common sense. On the Visual Commonsense Reasoning(VCR) dataset, GPT4RoI achieves a remarkable accuracy of 81.6%, surpassing all existing models by a significant margin (the second place is 75.6%) and almost reaching human-level performance of 85.0%. The code and model can be found at https://github.com/jshilong/GPT4RoI.
研究の動機と目的
- 領域オブインタレスト (RoI) を自然言語指示に参照させ、LLMs が領域レベルの理解を行えるよう spatial instruction tuning を導入する。
- RoI特徴を言語埋め込みと統合して領域キャプションと推論を行うエンドツーエンドモデルを開発する。
- 公開の領域テキストデータセットを活用して、RoIs についてのマルチラウンド会話が可能な統一モデルを訓練する。
- VCR、Visual Genome の領域キャプション、Visual-7W などのベンチマークで最先端の領域理解を実証する。
提案手法
- <region { i } > という特殊トークンを定義し、その埋め込みを RoIAlign による RoI特徴で置換する(多段階の特徴ピラミッドから取得)。
- 領域特徴を言語埋め込みと挿入して、LLM(Vicuna/LLaMA 系列)で処理されるシーケンスを形成する。
- 画像レベルと領域レベルの情報を言語空間へ整列させるため、地域特徴抽出器とプロジェクタを備えた ViT-H/14 のビジョンエンコーダを使用する。
- 2段階で訓練する。第1段階は、単純な領域-テキスト対を用いて領域特徴と語彙埋め込みを整列させる事前訓練;第2段階は、より複雑な領域テキストを用いた領域抽出器・画像プロジェクタ・LLMのエンドツーエンド微調整。
- LLaVA150KデータとLVISディテクタを組み込み、マルチラウンドの会話能力と領域参照処理を強化する。
実験結果
リサーチクエスチョン
- RQ1入力シーケンス内の空間的な基づけによって、エンドツーエンドのビジョン-言語モデル内で領域レベルの理解を達成できるか?
- RQ2空間指示チューニングは、領域キャプションや推論タスクにおいて、画像レベルの指示チューニングと比較してどう影響するか?
- RQ3領域テキストデータセットを使用した場合、領域キャプション、推論、VCRスタイルのタスクのベンチマーク性能にどのような影響があるか?
- RQ4マルチターン会話でモデルはマルチリージョン参照能力を維持できるか?
主な発見
| BLEU@4 | METEOR | ROUGE | CIDEr | |
|---|---|---|---|---|
| GPT4RoI-7B | 11.5 | 17.4 | 35.0 | 145.2 |
| GPT4RoI-13B | 11.7 | 17.6 | 35.2 | 146.8 |
| GRiT | - | 17.1 | - | 142.0 |
- GPT4RoIは VCR で 81.6% (Q→AR) の高精度を達成し、GPT4RoI-13B がほぼ人間性能の 85.0% に近づく。
- Visual Genome の領域キャプションでは、GPT4RoI-7B および GPT4RoI-13B が従来の最先端 GRiT をCIDErスコアで上回り(それぞれ 145.2 と 146.8)。
- GPT4RoI-13B は従来の Visual-7W 手法を大きく上回り(例:84.82% 対 72.53% の基準値等)、顕著な改善を示す。
- モデルは領域キャプションと推論のベンチマーク全般で領域レベルの能力を強力に示す(VG領域キャプション、Visual-7W、VCR)。
- エンドツーエンドの微調整と領域特徴の統合は重要であり、7Bおよび13Bバリアントは領域キャプション性能が同等かそれに近く、視覚モジュールとデータの改善余地を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。