Skip to main content
QUICK REVIEW

[論文レビュー] Spatial Causal Prediction in Video

Yanguang Zhao, Jie Yang|arXiv (Cornell University)|Mar 4, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

この論文は Spatial Causal Prediction (SCP) を定義し、SCP-Bench を構築。2,500 の QA ペアを 1,181 本の動画に対して提供し、観測済みの過去/未来状態を超える空間因果推論を評価。モデルのギャップと改善戦略を分析する。

ABSTRACT

Spatial reasoning, the ability to understand spatial relations, causality, and dynamic evolution, is central to human intelligence and essential for real-world applications such as autonomous driving and robotics. Existing studies, however, primarily assess models on visible spatio-temporal understanding, overlooking their ability to infer unseen past or future spatial states. In this work, we introduce Spatial Causal Prediction (SCP), a new task paradigm that challenges models to reason beyond observation and predict spatial causal outcomes. We further construct SCP-Bench, a benchmark comprising 2,500 QA pairs across 1,181 videos spanning diverse viewpoints, scenes, and causal directions, to support systematic evaluation. Through comprehensive experiments on {23} state-of-the-art models, we reveal substantial gaps between human and model performance, limited temporal extrapolation, and weak causal grounding. We further analyze key factors influencing performance and propose perception-enhancement and reasoning-guided strategies toward advancing spatial causal intelligence. The project page is https://guangstrip.github.io/SCP-Bench.

研究の動機と目的

  • visiblespa 光度の理解を超えた空間因果推論の新タスクを定式化する。
  • SCP-Bench を作成・公開し、空間ダイナミクスの知覚、推論、予測を体系的に評価する。
  • 23 の最先端モデルをベンチマークし、人間と機械の空間因果知能のギャップを特定する。
  • SCP の性能に影響を与える要因を分析し、改善戦略を提案する。
  • SCP 能力を高めるためのスケーリング、知覚強化、因果的支架に関する洞察を提供する。

提案手法

  • 可視的時空理解を超えた空間因果推論 (SCP) を QA タスクとして形式化する。
  • 多様な動画の収集、半自動 QA アノテーション、可視部分と不可視部分を分離するカットポイントの検証を通じて SCP-Bench を構築する。
  • 2 つの因果方向(後方、前方)と 2 つの視点(単一視点、複数視点)にまたがる 8 種類の空間推論カテゴリを定義する。
  • 複数の SCP タスクとシーンタイプに対して、商用・オープンソース・空間的特化モデルを広範に評価する。
  • perception と reasoning を分離するための厳密なアブレーション(Gold Video vs. captions)を実施し、単一フレーム vs. 複数フレームで時間的頑健性を検証する。
  • モデル規模、知覚強化(密なキャプション、空間相互作用グラフ)、外部因果支架(テキストの未来予測、世界モデル) の影響を分析する。

実験結果

リサーチクエスチョン

  • RQ1 現在のマルチモーダル LLM が多様なシーンと視点で SCP-Bench に対してどの程度性能を発揮するか?
  • RQ2 SCP の性能を最も制限する要因は、知覚と推論、時間的 horizon、因果構造のどれか?
  • RQ3 モデル規模の拡大と因果支架は SCP を改善できるか、どの戦略が最も効果的か?
  • RQ4 複数視点と前向き予測タスクは、単一視点と後方推論タスクより難易度が高いか?

主な発見

ModelAvg.Appearance OrderCountingPlanningRelationRelative DistanceRelative SizeRelative SpeedSpatial State
Human Performance89.6197.6081.2092.2685.7086.7097.6291.6184.17
GPT-5 (Closed)66.2479.0458.1259.0664.0770.4895.2477.4265.11
Gemini 2.5 Pro (Closed)55.8469.2854.8752.7646.2063.4788.1067.1062.41
Gemini 2.5 Flash (Closed)52.1059.2852.1451.7443.1457.7588.1066.4555.60
Claude Sonnet 4.5 (Closed)56.1468.8652.1457.4345.6560.9080.9568.3963.90
Qwen3-VL-2B (Open)43.0441.9242.7445.0140.8544.4159.5247.1040.65
Qwen3-VL-8B (Open)47.5254.4951.2849.2942.3349.4790.4846.4546.40
Qwen3-VL-30B-A3B (Open)54.1665.2752.1454.7946.2256.6585.7166.4557.19
Qwen3-VL-32B (Open)56.8459.8851.2858.6652.6357.9890.4867.1055.04
Qwen3-VL-235B-A22B (Open)61.0467.0754.7060.9055.0363.0397.6274.8463.31
Qwen3-Omni-30B-A3B (Open)53.6063.4755.5653.5647.0353.7288.1065.8155.40
InternVL3.5-8B (Open)50.5259.8854.7054.7943.8254.5261.9058.7144.96
InternVL3.5-38B (Open)53.5662.2853.8556.0146.3457.9890.4865.8148.20
InternVL3.5-241B-A28B (Open)56.9667.0760.6861.1046.1160.3790.4868.3960.07
MiniCPM-V-4.5 (Open)43.8053.2949.5743.9936.0449.2076.1952.2642.81
DeepSeek-VL2 (Open)38.0845.5138.4639.5129.4145.7473.8153.5533.81
NVILA-8B (Open)34.4036.5336.7538.0930.6630.0559.5238.7137.05
NVILA-15B (Open)45.2854.4945.3048.0735.3552.1373.8150.9749.28
LLaVA-OneVision-7B (Open)36.4842.5137.6137.0731.2438.3064.2946.4535.61
LLaVA-OneVision-70B (Open)50.8464.6752.9948.6844.3953.4678.5761.9451.80
LLaVA-OneVision-1.5-8B (Open)45.5256.2947.0146.4439.1350.2780.9551.6141.73
LLaVA-NeXT-Video-7B (Open)36.6043.1125.6435.4429.5248.4054.7654.8432.73
Spatial-MLLM (Spatial Model)39.7645.5128.2133.8138.3349.7366.6750.9732.37
SpaceR (Spatial Model)41.3652.1034.1940.5334.9045.2159.5254.1944.60
  • SCP-Bench における人間レベルには遠く及ばず(最高 ~66.24% 正答率 vs. 89.61% 人間平均)。
  • 大規模オープンソースモデルは、特定の SCP タスクで一部のクローズドモデルと同等以上を示すことができ、スケーリングと公開モデルの競争力を示唆。
  • 相対的なサイズ・相対的な速度・空間状態は比較的容易なカテゴリ。オブジェクト関係、計画、カウントはより難しく、高次推論を要する。
  • 過去推論と比べて未来指向の予測は依然難しく、時間的外挿の horizon による正確さの向上は限定的で、正確さは各 horizon で約中位の 40 台後半。
  • 知覚だけがボトルネックではなく、未観測の空間状態に関する推論が核となる制約。Gold Video による知覚改善があっても、推論は依然として難しい。
  • モデルサイズの増加は一貫した性能向上をもたらす。単純な CoT/自己思考は限定的または一貫性のない改善。知覚強化は限られた利得。
  • 未観測の空間因果支架(特にテキストの未来記述)は、画像/動画ベースの支架よりも性能を有意に向上させる可能性。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。