[論文レビュー] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
Set-of-Mark (SoM) プロンプトは、意味的に意味のある画像領域を解釈可能なマークで覆い、ゼロショット設定における高精度なタスク全体でGPT-4Vの視覚的グラウンディングを劇的に向上させます。
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SEEM/SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM in zero-shot setting outperforms the state-of-the-art fully-finetuned referring expression comprehension and segmentation model on RefCOCOg. Code for SoM prompting is made public at: https://github.com/microsoft/SoM.
研究の動機と目的
- GPT-4V の高度に細かな視覚的グラウンディング能力のギャップを動機づけて対処する。
- Set-of-Mark prompting を導入して、ファインチューニングなしで領域ごとのグラウンディングを解放する。
- 視覚タスクとベンチマークのセット全体に対する SoM の有効性を実証する。
提案手法
- 既製のセグメンテーションモデル(例:MaskDINO、SEEM、SAM、Semantic-SAM)を用いて、意味的に意味のある領域に画像を分割する。
- 各領域を識別可能なマーク(数字、アルファベット、箱、マスク)で重ね合わせ、マーク付き画像 I^m を作成する。
- 衝突を意識したアルゴリズムを用いてマークを生成し、位置を割り当てる。小さい領域を優先し、距離変換を用いてマークを配置する。
- マーク付き領域を参照するプレーンテキストまたは交互に配置されたプロンプトのいずれかで GPT-4V に指示し、視覚的内容をテキスト的かつ空間的にグラウンドする。
- 必要に応じてユーザー主導または自動生成のマークを許可し、新しいチャットウィンドウを活用してゼロショット評価時のコンテキスト漏れを防ぐ。
- SoM を、open-vocabulary segmentation、referring segmentation、phrase grounding、video object segmentation、その他関連の grounding ベンチマークといった視覚タスク全体で評価する。
実験結果
リサーチクエスチョン
- RQ1SoM プロンプトは、モデルのファインチューニングなしでGPT-4Vが視覚コンテンツを場所ごとにグラウンデングすることを可能にするか?
- RQ2異なるマークタイプ(数字、箱、マスク)とマーク割り当て戦略が、タスクを横断してグラウンディング性能にどのように影響するか?
- RQ3正解セグメンテーションマスクと予測マスクを使用する場合のグラウンディング精度への影響はどの程度か?
- RQ4SoM は細かなグラウンディングタスクにおいて、専門モデルとの性能差をどの程度埋めるか?
主な発見
- SoM はGPT-4Vのグラウンディングを大幅に向上させ、いくつかのゼロショットタスク(例:RefCOCOg)で複数の最先端専門家を上回る。
- 視覚的に解釈可能なマークの集合を使用すると、GPT-4V が領域グラウンディング済みのテキストを生成し、マークを対応する画像領域に対応づけることができる(r_k ↔ m_k ↔ text_k)。
- マークに boxes を追加すると phrase grounding の性能がさらに向上し、正解マスクを使用すると referring segmentation の結果が著しく向上する(例:RefCOCOg で +14.5 mIoU)。
- SoM は選択されたタスクで完全にファインチューニングされた専門モデルに近づくか、これを上回るゼロショット性能を実現し、複数フレームを組み合わせると DAVIS2017 で最良の追跡性能を得る。
- 定性的分析は、データセットの注釈ノイズとマーク配置の非中心性がグラウンディングに影響を与えることを明らかにしており、マーク割り当てと prompting 戦略の改善点を浮き彫りにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。