QUICK REVIEW

[論文レビュー] Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Giacomo Frisoni, Lorenzo Molfetta|arXiv (Cornell University)|Mar 2, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

Graph-of-Markは画像上にピクセルレベルのシーングラフを導入し、マルチモーダル言語モデルを促進して、VQAおよび参照表現タスクにおけるゼロショット空間推論をオープンソースモデル全体で改善します。

ABSTRACT

Recent advances in training-free visual prompting, such as Set-of-Mark, have emerged as a promising direction for enhancing the grounding capabilities of multimodal language models (MLMs). These techniques operate by partitioning the input image into object regions and annotating them with marks, predominantly boxes with numeric identifiers, before feeding the augmented image to the MLM. However, these approaches treat marked objects as isolated entities, failing to capture the relationships between them. On these premises, we propose Graph-of-Mark (GoM), the first pixel-level visual prompting technique that overlays scene graphs onto the input image for spatial reasoning tasks. We evaluate GoM across 3 open-source MLMs and 4 different datasets, conducting extensive ablations on drawn components and investigating the impact of auxiliary graph descriptions in the text prompt. Our results demonstrate that GoM consistently improves the zero-shot capability of MLMs in interpreting object positions and relative directions, improving base accuracy in visual question answering and localization up to 11 percentage points.

研究の動機と目的

マルチモーダル言語モデル（MLM）の物体レベルのプロンプトを超えた空間推論の改善を動機づける。
訓練不要でピクセルレベルの視覚的プロンプティング手法を開発し、物体関係を直接画像にエンコードする。
アーキテクチャの変更や再訓練なしで既存のMLMと互換性を確保する。
複数のデータセット、検出器、MLMアーキテクチャに跨る頑健性を示す。

提案手法

物体を検出しペアワイズ空間関係を推定してシーングラフ注釈付き画像I_SGを構築する。
訓練なしで物体再現性を最大化するために、オープン語彙・クローズド語彙検出器のアンサンブルを使用する。
ユニークIDとオプションの関係ラベルを持つ画像上のノード（物体）とエッジ（関係）としてシーングラフを視覚マークとしてレンダリングする。
7つの関係タイプ（above, below, left_of, right_of, in_front_of, behind, near）を、接触、very_close、closeなどの修飾子とモノクロ.depth推定による深度手がかりと共に計算する。
MLMへ視覚SGだけ、または視覚+テキストSG説明の両方をプロンプトとして与え、モデルのパラメータを変更せずに推論を導く。

実験結果

リサーチクエスチョン

RQ1ピクセルレベルのグラフ拡張プロンプト（GoM）は、VQAおよびRECタスクにおけるMLMのゼロショット空間推論を改善しますか？
RQ2エッジラベルの有無と数値ID対テキスト表現の物体IDが性能に与える影響はどうなりますか？
RQ3GoMはSoMおよびセグメンテーションのみのプロンプトと比較して、さまざまなMLMとデータセットでどのように適合しますか？
RQ4グラフ密度（エッジ数）とGoMの性能/ノイズのトレードオフはどうなりますか？

主な発見

GoMは3つのオープンソースMLMと4つのデータセットで、VQAおよびRECのゼロショット空間推論を一貫して改善します。
GoMはSet-of-Mark（SoM）やセグメンテーションのみのプロンプトなど、既存の画像プロンプティング手法の性能を上回ります。
LlamaV-o1 11Bは、評価対象モデルの中で絶対スコアが最も高く（例：VQAで83.6、RECで57.6）、GoMは推論可能なモデルに顕著な利益をもたらします。
最適な結果はしばしば3–10物体と4–16関係で、グラフ密度の甘い領域を示します。
視覚SGと口頭化されたSG手掛かりを組み合わせると、視覚的手掛かりのみよりも追加の利益が得られます。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。