Skip to main content
QUICK REVIEW

[논문 리뷰] How does longer temporal context enhance multimodal narrative video processing in the brain?

Prachi Jindal, Anant Khandelwal|arXiv (Cornell University)|2026. 02. 07.
Action Observation and Synchronization인용 수 0
한 줄 요약

이 연구는 더 긴 시간 맥락(3–12초 클립)이 자연주의적 영화 시청 동안 다중 모드 비디오–오디오 LLM의 뇌 정렬을 개선한다는 것을 보여주며 ROI- 및 계층 의존 패턴이 나타나고, 반면 단일 모드 비디오 모델은 큰 이득을 보이지 않는다.

ABSTRACT

Understanding how humans and artificial intelligence systems process complex narrative videos is a fundamental challenge at the intersection of neuroscience and machine learning. This study investigates how the temporal context length of video clips (3--12 s clips) and the narrative-task prompting shape brain-model alignment during naturalistic movie watching. Using fMRI recordings from participants viewing full-length movies, we examine how brain regions sensitive to narrative context dynamically represent information over varying timescales and how these neural patterns align with model-derived features. We find that increasing clip duration substantially improves brain alignment for multimodal large language models (MLLMs), whereas unimodal video models show little to no gain. Further, shorter temporal windows align with perceptual and early language regions, while longer windows preferentially align higher-order integrative regions, mirrored by a layer-to-cortex hierarchy in MLLMs. Finally, narrative-task prompts (multi-scene summary, narrative summary, character motivation, and event boundary detection) elicit task-specific, region-dependent brain alignment patterns and context-dependent shifts in clip-level tuning in higher-order regions. Together, our results position long-form narrative movies as a principled testbed for probing biologically relevant temporal integration and interpretable representations in long-context MLLMs.

연구 동기 및 목표

  • 인간과 AI가 장편 내러티브 비디오를 어떻게 처리하는지와 뇌–모델 정렬에서 시간적 맥락의 역할을 이해하도록 동기를 부여한다.
  • 다양한 클립 길이에서 다중 모달 비디오–오디오 LLM과 단일 모드 비디오 모델의 뇌 예측력을 평가한다.
  • 내러티브 태스크 프롬프트가 뇌 정렬의 영역별 특성과 모델 계층 간 대응에 어떻게 영향을 주는지 조사한다.
  • 맥락 의존적 표현을 이해하기 위해 어떤 비디오 클립과 프롬프트가 복수 보셀 반응을 가장 강하게 유발하는지 파악한다.

제안 방법

  • 두 개의 사전학습된 비디오–오디오 MLLM(Qwen-2.5-Omni 및 DATE)을 사용하고 두 개의 단일 모드 기준 모델(TimeSFormer, VideoMAE)을 사용하여 1.49 s 보폭으로 3, 6, 9, 12 s의 슬라이딩 시간 창에서 표현을 생성한다.
  • 모든 Transformer 계층에서 표현을 추출하고 창당 토큰과 작업 지시에 따라 평균화한다.
  • 자극 표현으로부터 fMRI 반응을 예측하기 위해 보셀별 인코딩 모델(부트스트랩 릿지 회귀)을 구축한다.
  • 피험자 간 뇌 정렬을 표준화하기 위해 교차 피험자 예측 정확도를 추정한다.
  • 네 가지 내러티브 태스크(Character Motivation, Event Boundary Detection, Multi-Scene Summary, Narrative Summary)를 프롬프트로 평가하여 작업별 표현을 얻는다.
  • 계층별 및 ROI별 정렬을 분석하여 시간적 구배와 대뇌 피질 위계를 검토한다.
Figure 1: Leveraging temporal video context of different durations ( $X_{\text{windows}}$ ) with unimodal and multimodal models for brain encoding with a diverse set of instructions (prompts). We experiment with 4 narrative video understanding tasks: character motivation, event boundary detection, m
Figure 1: Leveraging temporal video context of different durations ( $X_{\text{windows}}$ ) with unimodal and multimodal models for brain encoding with a diverse set of instructions (prompts). We experiment with 4 narrative video understanding tasks: character motivation, event boundary detection, m

실험 결과

연구 질문

  • RQ1RQ1 다중 모달 대 단일 모드 비디오 모델의 자연스러운 영화 시청 중 뇌 예측성에 시간 맥락 길이가 어떻게 영향을 미치는가?
  • RQ2RQ2 어떤 뇌 영역이 최적 맥락 길이에서 이득이나 이동을 보이며, 이것이 MLLM 계층 표현과 어떻게 관련되는가?
  • RQ3RQ3 내러티브-태스크 프롬프트가 뇌 정렬에 어떤 영향을 미치며 ROI별 패턴으로 분리되는가?
  • RQ4RQ4 어떤 비디오 클립이 맥락과 태스크 전반에서 보셀 반응을 가장 강하게 유발하며, 패턴은 ROI에 따라 어떻게 달라지는가?

주요 결과

  • 더 긴 시간 맥 context은 비디오–오디오 MLLMs의 뇌 정렬을 개선한다(대략 Qwen-2.5-Omni에서 ≈26% 상대 이득, DATE에서 ≈19%), 반면 단일 모드 기준은 미미한 변화에 그친다.
  • 긴 창(12 s)은 고차적 의미 영역을 우선 정렬하고, 중간 창(6 s)은 지각 및 초기 언어 영역을 선호한다.
  • 내러티브-태스크 프롬프트는 작업 특이적이고 ROI 의존적 정렬 패턴을 생성; Narrative 및 Multi-scene Summaries는 고차 영역을, Character Motivation은 시간적 언어 영역을, Event Boundary Detection은 더 국소화된 영역을 활성화.
  • 계층별 분석은 대뇌 언어 계층 구조를 보여준다: 더 깊은 계층은 고차 뇌 영역과 정렬하고, 초기 계층은 감각 영역과 정렬한다.
  • 시각 영역은 맥락 간에 클립 선호도가 안정적이지만, 고차 영역(AG, PCC)은 맥락과 프롬프트에 따라 변화한다.
  • 보셀 반응의 상위 활성 클립은 시각 영역에서 안정적이지만, 맥락이 커지면 고차 영역에서 변화하며 맥락 의존적 의미 민감성을 나타낸다.
Figure 2: Average normalized brain alignment as a function of temporal window length (3 to 12s) for MLLMs, and unimodal video baselines. MLLMs show increasing alignment with longer windows, while unimodal video models remain approximately constant. Error bars denote variability across subjects (mean
Figure 2: Average normalized brain alignment as a function of temporal window length (3 to 12s) for MLLMs, and unimodal video baselines. MLLMs show increasing alignment with longer windows, while unimodal video models remain approximately constant. Error bars denote variability across subjects (mean

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.