QUICK REVIEW

[論文レビュー] DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Yanbin Wei, Jiangyue Yan|arXiv (Cornell University)|Feb 25, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

DynamicGTRは、Vision-Language ModelsのゼロショットグラフQAを強化するために、質問ごとに最適なグラフトポロジー表現をルーティングし、再学習なしに正確さと応答の簡潔さのバランスを取る。

ABSTRACT

Vision-Language Models (VLMs) have emerged as versatile solutions for zero-shot question answering (QA) across various domains. However, enabling VLMs to effectively comprehend structured graphs and perform accurate, efficient QA remains challenging. Existing approaches typically rely on one single graph topology representation (GTR), such as fixed-style visual images or unified text descriptions. This ``one-size-fits-all'' strategy often neglects model-specific and task-specific preferences, resulting in inaccurate or over-lengthy responses to graph-related queries. To address this, we propose the $\mbox{DynamicGTR}$ framework, which dynamically selects the optimal GTR for each query during inference, thereby enhancing the zero-shot graph QA capabilities of VLMs with a customizable accuracy and brevity trade-off. Extensive experiments show that DynamicGTR not only improves VLM-based graph algorithm QA performance but also successfully transfers the experience trained from synthetic graph algorithm tasks to real-world applications like link prediction and node classification, without any additional training. Additionally, DynamicGTR demonstrates strong transferability across tasks, domains, and models, suggesting its potential as a flexible solution for broad graph scenarios.

研究の動機と目的

異なるグラフトポロジー表現（GTR）がVLMベースのグラフQA性能に与える影響を調査する。
多様でモデル非依存な表現を持つゼロショットGTRプールを構築する。
正確さと効率性のバランスを取るGraph Response Efficiency（GRE）指標を設計する。
推論時に各質問ごとに最適なGTRを動的に選択するGTRルーターを訓練する。
DynamicGTRのタスク・領域・VLM間の転移性を実証する。

提案手法

多様なグラフトポロジーをカバーする視覚的・語的表現を含むゼロショットGTRプールを定義する。
回答の正確さとトークンコストを組み合わせたGRE（Graph Response Efficiency）を導入する。
固定データを用いて質問を探査しGRE最適GTRをマッピングするGTR Preferenceデータセットを作成する。
各質問ごとにプールから最適なGTRを予測するGTRルーター（実験ではDeBERTaV3-base）を訓練する。
推論時に選択したGTRをVLM Reasonerに付加し、モデル再訓練なしで回答を生成する。
モデル横断・領域横断の転移性を示し、ハイパーパラメータα（トレードオフ）とk（探査試行数）を分析する。

実験結果

リサーチクエスチョン

RQ1GTRの選好はゼロショット設定でVLMベースのグラフQAの正確さと効率性を改善するか。
RQ2異なるグラフタスクに対してどのGTRが好まれ、ルーターはこれらの好みをどのように捉えるか。
RQ3DynamicGTRは追加訓練なしでタスク・領域・VLMアーキテクチャ間でどれだけ転移できるか。
RQ4精度と効率のトレードオフを制御するハイパーパラメータは性能にどのように影響するか。
RQ5GTRルーターはVLM間で再訓練なしに転移可能か。

主な発見

DynamicGTRは、ベースラインと比較して7つの同一領域グラフアルゴリズムにわたりゼロショットのグラフQA性能を向上させる。
GREベースのルーターはタスク固有のGTR好みを活用し、単一のGTRだけよりも高い平均GREを達成する。
GTR Preferenceデータセットは、視覚的GTRが好まれる知覚集約型タスクを示し、エッジ重み付けや順序付けタスクは語的GTRを好むことを示した。
DynamicGTRはリンク予測やノード分類といった現実のタスクへ追加訓練なしで転移する。
ルーターのVLM間転移は実現可能で、一般的には非DynamicGTRベースラインより性能を向上させるものの、モデル固有のニュアンスが存在する。
ハイパーパラメータαとkは精度-効率のトレードオフと探査の頑健性を調整し、柔軟な展開を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。