[논문 리뷰] Demystifing Video Reasoning
이 논문은 확산 기반 비디오 모델이 프레임 간이 아니라 확산 denoising 단계(Chain-of-Steps)를 따라 추론한다고 주장하고, emergent behaviors와 학습 없이 가능한 잠재 공간 앙상블 방법으로 추론 성능을 높일 수 있음을 보인다.
Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.
연구 동기 및 목표
- 확산 기반 비디오 생성 모델의 내부 추론 메커니즘을 조사한다.
- 비디오 추론이 Chain-of-Frames(CoF) 또는 Chain-of-Steps(CoS) 프로세스를 따르는지 테스트한다.
- 출현하는 추론 행동과 추론 품질 형성에서 확산 단계의 역할을 식별한다.
- 비디오 추론 성능을 개선하기 위한 실무적이고 학습 없이 가능한 전략을 탐구한다.
제안 방법
- 확산 각 단계에서 중간 잠재 상태를 분석하여 denoising이 진행될수록 의미론적 결정을 시각화한다.
- 추론이 가장 민감한 부분(단계 대 프레임 섭동)을 평가하기 위해 노이즈 섭동 실험을 수행한다.
- Diffusion Transformer의 계층별 기계적 분석을 수행하여 지각, 추론, 통합이 어디에서 발생하는지 식별한다.
- 여러 시드에서 latent 표현을 병합하여 추론을 개선하는 학습 없는 latent-trajectory 앙상블을 제안한다.

실험 결과
연구 질문
- RQ1비디오 추론이 diffusion 모델에서 주로 확산 단계에 따라 발생하는가, 아니면 프레임 간에 걸쳐 발생하는가?
- RQ2diffusion 모델의 비디오 추론과 함께 나타나는 출현하는 행동은 무엇인가(작동 기억, 자기 교정/향상, 작동 전 지각 등)?
- RQ3추론 관련 표현은 diffusion-transformer 계층에서 어떻게 구성되어 있는가?
- RQ4학습 없이도 latent 경로의 앙상블이 추론 성능을 향상시킬 수 있는가?
주요 결과
- 추론은 주로 프레임 간이 아닌 확산 denoising 단계(Chain-of-Steps)에서 발생한다.
- 초기 확산 단계에서 여러 후보 가설이 형성되고, 이후 단계에서 최종 해답으로 정제된다.
- 출현하는 행동으로 작업 기억, 자기 교정/향상, 작동 전 지각 역학 등이 포함된다.
- 계층별 분석에서 초기 계층은 지각을 처리하고 중간 계층이 추론을 주도하며, 후기 계층이 표현을 통합한다.
- 간단한 학습 없는 latent trajectory 앙상블(다중 시드)은 VBVR-Bench에서 측정 가능한 성능 향상을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.