QUICK REVIEW

[논문 리뷰] Spatial Causal Prediction in Video

Yanguang Zhao, Jie Yang|arXiv (Cornell University)|2026. 03. 04.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

논문은 Spatial Causal Prediction (SCP)을 정의하고 1,181개의 비디오에 대해 2,500개의 QA 쌍으로 SCP-Bench를 구축하여 관찰된 과거/미래 상태를 넘어선 공간적 인과 추론을 평가하며, 모델의 격차와 개선 전략을 분석합니다.

ABSTRACT

Spatial reasoning, the ability to understand spatial relations, causality, and dynamic evolution, is central to human intelligence and essential for real-world applications such as autonomous driving and robotics. Existing studies, however, primarily assess models on visible spatio-temporal understanding, overlooking their ability to infer unseen past or future spatial states. In this work, we introduce Spatial Causal Prediction (SCP), a new task paradigm that challenges models to reason beyond observation and predict spatial causal outcomes. We further construct SCP-Bench, a benchmark comprising 2,500 QA pairs across 1,181 videos spanning diverse viewpoints, scenes, and causal directions, to support systematic evaluation. Through comprehensive experiments on {23} state-of-the-art models, we reveal substantial gaps between human and model performance, limited temporal extrapolation, and weak causal grounding. We further analyze key factors influencing performance and propose perception-enhancement and reasoning-guided strategies toward advancing spatial causal intelligence. The project page is https://guangstrip.github.io/SCP-Bench.

연구 동기 및 목표

가시적인 시공간 이해를 넘어서는 공간적 인과 추론에 대한 새로운 작업을 형식화합니다.
SCP-Bench를 생성하고 공개하여 공간 역학의 인지, 추론, 예측을 체계적으로 평가합니다.
23개의 최첨단 모형을 벤치마크하여 인간과 기계의 공간적 인과 지능 간의 격차를 식별합니다.
SCP 성능에 영향을 주는 요인을 분석하고 개선 전략을 제안합니다.
SCP 역량을 확장하기 위한 스케일링, 지각 향상 및 인과적 비계에 대한 통찰을 제공합니다.

제안 방법

가시적 시공간 이해를 넘어서는 공간적 인과 추론(SCP)을 부분 시간적 맥락을 가진 QA 태스크로 형식화합니다.
다양한 비디오를 소싱하고 반자동 QA 주석을 통해 SCP-Bench를 구성하며, 가시적/보이지 않는 부분을 구분하는 컷포인트를 검증합니다.
두 가지 인과 방향(역방향, 순방향)과 두 가지 시점(단일 시야, 다중 시야)에 걸친 8개의 공간 추론 범주를 정의합니다.
여러 SCP 태스크와 장면 유형에서 광범위한 모델(비공개, 오픈소스, 공간 특화)을 평가합니다.
지각과 추론을 서로 분리하기 위한 통제형 제거 실험(Gold Video 대 자막) 및 시간적 강건성 테스트(단일 프레임 대 다중 프레임)를 수행합니다.
모델 규모, 지각 향상(밀도 자막, 공간 상호작용 그래프) 및 외부 인과 비계(텍스트 미래 예측, 세계 모델) 등의 효과를 분석합니다.

실험 결과

연구 질문

RQ1다양한 장면과 시점에서 현재의 다중 모달 LLM이 SCP를 얼마나 잘 수행하는가?
RQ2지각 대 추론, 시간적 지평, 인과 구조 등 어떤 요인이 기존 모델의 SCP 성능을 가장 제한하는가?
RQ3모델 크기 확대와 인과 비계가 SCP를 개선할 수 있는가, 어떤 전략이 가장 효과적인가?
RQ4다중 시야 및 순방향 예측 태스크가 단일 시야 및 역추론 태스크보다 더 어려운가?

주요 결과

모델	평균	출현 순서	개수	계획	관계	상대 거리	상대 크기	상대 속도	공간 상태
인간 성능	89.61	97.60	81.20	92.26	85.70	86.70	97.62	91.61	84.17
GPT-5 (Closed)	66.24	79.04	58.12	59.06	64.07	70.48	95.24	77.42	65.11
Gemini 2.5 Pro (Closed)	55.84	69.28	54.87	52.76	46.20	63.47	88.10	67.10	62.41
Gemini 2.5 Flash (Closed)	52.10	59.28	52.14	51.74	43.14	57.75	88.10	66.45	55.60
Claude Sonnet 4.5 (Closed)	56.14	68.86	52.14	57.43	45.65	60.90	80.95	68.39	63.90
Qwen3-VL-2B (Open)	43.04	41.92	42.74	45.01	40.85	44.41	59.52	47.10	40.65
Qwen3-VL-8B (Open)	47.52	54.49	51.28	49.29	42.33	49.47	90.48	46.45	46.40
Qwen3-VL-30B-A3B (Open)	54.16	65.27	52.14	54.79	46.22	56.65	85.71	66.45	57.19
Qwen3-VL-32B (Open)	56.84	59.88	51.28	58.66	52.63	57.98	90.48	67.10	55.04
Qwen3-VL-235B-A22B (Open)	61.04	67.07	54.70	60.90	55.03	63.03	97.62	74.84	63.31
Qwen3-Omni-30B-A3B (Open)	53.60	63.47	55.56	53.56	47.03	53.72	88.10	65.81	55.40
InternVL3.5-8B (Open)	50.52	59.88	54.70	54.79	43.82	54.52	61.90	58.71	44.96
InternVL3.5-38B (Open)	53.56	62.28	53.85	56.01	46.34	57.98	90.48	65.81	48.20
InternVL3.5-241B-A28B (Open)	56.96	67.07	60.68	61.10	46.11	60.37	90.48	68.39	60.07
MiniCPM-V-4.5 (Open)	43.80	53.29	49.57	43.99	36.04	49.20	76.19	52.26	42.81
DeepSeek-VL2 (Open)	38.08	45.51	38.46	39.51	29.41	45.74	73.81	53.55	33.81
NVILA-8B (Open)	34.40	36.53	36.75	38.09	30.66	30.05	59.52	38.71	37.05
NVILA-15B (Open)	45.28	54.49	45.30	48.07	35.35	52.13	73.81	50.97	49.28
LLaVA-OneVision-7B (Open)	36.48	42.51	37.61	37.07	31.24	38.30	64.29	46.45	35.61
LLaVA-OneVision-70B (Open)	50.84	64.67	52.99	48.68	44.39	53.46	78.57	61.94	51.80
LLaVA-OneVision-1.5-8B (Open)	45.52	56.29	47.01	46.44	39.13	50.27	80.95	51.61	41.73
LLaVA-NeXT-Video-7B (Open)	36.60	43.11	25.64	35.44	29.52	48.40	54.76	54.84	32.73
Spatial-MLLM (Spatial Model)	39.76	45.51	28.21	33.81	38.33	49.73	66.67	50.97	32.37
SpaceR (Spatial Model)	41.36	52.10	34.19	40.53	34.90	45.21	59.52	54.19	44.60

모델은 SCP-Bench에서 인간 수준으로 멀리 떨어져 있으며(최고 성능 약 66.24% 정확도, 인간 평균 89.61% 대비).
대규모 오픈소스 모델은 특정 SCP 태스크에서 일부 폐쇄형 모델에 비견되거나 능가할 수 있어 규모 확장 및 공개 모델의 경쟁력을 시사합니다.
상대적 크기, 상대적 속도, 공간 상태는 비교적 쉬운 범주에 속하는 반면 객체 관계, 계획, 카운팅은 더 어렵고 고차원 추론을 필요로 합니다.
과거 추론에 비해 미래 지향 예측은 여전히 도전적이며, 시간적 외삽 지평은 거의 큰 이득을 보이지 않고 지평 간 정확도는 중간 40대에 머뭅니다.
지각만으로는 병목이 아니며 보이지 않는 공간 상태에 대한 추론이 핵심 한계입니다. 골드 비디오를 통한 지각 향상에도 추론은 여전히 어려움.
모델 크기의 증가로 일관된 성능 향상을 보이며, 단순한 CoT/자기 사고는 제한적이거나 일관되지 않은 향상을 제공합니다. 지각 향상은 미미한 이득을 제공합니다.
보이지 않는 공간적 인과 비계(특히 텍스트 기반 미래 설명)가 이미지/비디오 기반 비계보다 성능 향상을 의미 있게 높일 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.