Skip to main content
QUICK REVIEW

[논문 리뷰] UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Joseph Raj Vishal, Nagasiri Poluri|arXiv (Cornell University)|2026. 02. 24.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

UDVideoQA는 16시간 분량의 영상과 28,800개의 QA 쌍을 포함한 대규모의 프라이버시 보호 교통 비디오 QA 데이터셋과 VideoQGen 벤치마크를 도입하며, VideoLMs에서 지속적인 인지-추론 간의 차이를 드러내고 파인튜닝된 오픈 모델이 독점 성능에 근접할 수 있음을 보여줍니다.

ABSTRACT

Understanding the complex, multi-agent dynamics of urban traffic remains a fundamental challenge for video language models. This paper introduces Urban Dynamics VideoQA, a benchmark dataset that captures the unscripted real-world behavior of dynamic urban scenes. UDVideoQA is curated from 16 hours of traffic footage recorded at multiple city intersections under diverse traffic, weather, and lighting conditions. It employs an event-driven dynamic blur technique to ensure privacy preservation without compromising scene fidelity. Using a unified annotation pipeline, the dataset contains 28K question-answer pairs generated across 8 hours of densely annotated video, averaging one question per second. Its taxonomy follows a hierarchical reasoning level, spanning basic understanding and attribution to event reasoning, reverse reasoning, and counterfactual inference, enabling systematic evaluation of both visual grounding and causal reasoning. Comprehensive experiments benchmark 10 SOTA VideoLMs on UDVideoQA and 8 models on a complementary video question generation benchmark. Results reveal a persistent perception-reasoning gap, showing models that excel in abstract inference often fail with fundamental visual grounding. While models like Gemini Pro achieve the highest zero-shot accuracy, fine-tuning the smaller Qwen2.5-VL 7B model on UDVideoQA bridges this gap, achieving performance comparable to proprietary systems. In VideoQGen, Gemini 2.5 Pro, and Qwen3 Max generate the most relevant and complex questions, though all models exhibit limited linguistic diversity, underscoring the need for human-centric evaluation. The UDVideoQA suite, including the dataset, annotation tools, and benchmarks for both VideoQA and VideoQGen, provides a foundation for advancing robust, privacy-aware, and real-world multimodal reasoning. UDVideoQA is available at https://ud-videoqa.github.io/UD-VideoQA/UD-VideoQA/.

연구 동기 및 목표

  • 다양한 조명과 날씨 조건에서 밀집한 질문-답변 주석을 가진 실제 세계의 다중 에이전트 도시 교통 다이나믹스를 포착한다.
  • 이벤트 기반의 동적 모블링을 통해 프라이버시를 보호하면서도 현장 충실도를 보존한다.
  • 교통 장면의 grounding, 시간적 및 인과 추론을 평가하기 위해 VideoQA와 VideoQGen 모두에 대한 벤치마크를 생성한다.

제안 방법

  • 도시 교차로에서 30 fps로 다양한 조건하에 16시간의 감시 영상을 수집(1.7M 프레임).
  • 프레임을 10초 클립으로 분할하고 프라이버시를 위해 이벤트 기반 모션 기반 블러링을 적용한다.
  • Human-in-the-loop 검증이 포함된 VideoQGen 기반 주석 파이프라인을 사용하여 자동으로 QA 쌍 풀을 생성한다.
  • 속성 부여, 기본 이해, 이벤트 추론, 역추론, 반사실 추론을 다루는 계층적 QA 분류체계를 정의한다.
  • VideoQA에서 10개의 최첨단 VideoLM과 VideoQGen에서 8개의 모델을 제로샷 및 파인튜닝 설정으로 평가한다.
  • LLM 판단자를 활용한 의미-의미 점수 방식과 가중된 복잡도 점수 부여로 추론 정확도를 평가한다.
Figure 2 : Illustrates the pipeline for creating the UDVideoQA dataset. The process begins with traffic video recording, which is segmented and temporally clipped into $10$ s clips. These clips undergo dynamic anonymity blurring. The QA taxonomy and generation module then uses model based on VideoQG
Figure 2 : Illustrates the pipeline for creating the UDVideoQA dataset. The process begins with traffic video recording, which is segmented and temporally clipped into $10$ s clips. These clips undergo dynamic anonymity blurring. The QA taxonomy and generation module then uses model based on VideoQG

실험 결과

연구 질문

  • RQ1현재의 VideoLM들이 다중 에이전트의 실제 도시 교통 장면에서 grounding과 추론을 얼마나 잘 수행하는가?
  • RQ2이 모델들에서 지각적 grounding과 고차원 추론 간의 차이는 무엇인가?
  • RQ3도메인 적응을 위한 파인튜닝이 도시 교통 VideoQA에서 오픈 소스 모델과 독점 시스템 간의 간극을 좁힐 수 있는가?
  • RQ4VideoQGen 설정에서 자동으로 생성된 교통 시나리오의 질문이 얼마나 다양하고 맥락적으로 grounded될 수 있는가?
  • RQ5감시 데이터의 익명성을 보장하면서도 현장 충실도를 유지할 수 있는 프라이버시 보호 기법은 무엇인가?

주요 결과

  • UDVideoQA는 다양한 날씨, 조명, 밀도 조건에서 28,800개의 QA 쌍과 함께 16시간의 영상(1.7M 프레임)을 포함한다.
  • 이벤트 기반 동적 블러링 방법은 프라이버시를 보호하고 탐지자-세그먼터 기반의 기준선보다 시간적/맥락적 무결성을 더 잘 유지한다.
  • 10개의 최첨단 VideoLM은 지속적인 지각-추론 격차를 보이며, 높은 수준의 추론이 종종 저수준의 시각 grounding보다 더 우수하다.
  • Gemini 2.5 Pro는 제로샷/전체 성능에서 가장 높지만 morning 조건에서 속성이 grounding이 취약하게 나타난다; 더 작은 오픈 모델도 적절한 파인튜닝으로 독점 시스템과 일치하거나 근접할 수 있다.
  • VideoQGen에서 Gemini 2.5 Pro와 Qwen3 시리즈가 가장 관련성 높고 복잡한 질문을 생성하지만, 모델 간 언어적 다양성은 제한적이다.
  • UDVideoQA를 오픈 소스 Qwen-2.5-VL 7B에 파인튜닝하면 독점 시스템과의 간극이 줄어들며 속성 및 교차 도메인 일반화에서 주목할 만한 이득이 있다.
  • 이 데이터셋은 교차 데이터셋 일반화를 가능하게 하며, 파인튜닝된 UDVideoQA 모델이 RoadSocial 및 SUTDTrafficQA 벤치마크의 성능을 향상시킨다.
Figure 3 : UDVideoQA dataset statistics. (a) Word frequency distribution by question type, (b) Distribution of question categories across semantic domains, including pedestrians, vehicles, and environmental signage. (c) Plot illustrating the spread of question sets across six contextual dimensions:
Figure 3 : UDVideoQA dataset statistics. (a) Word frequency distribution by question type, (b) Distribution of question categories across semantic domains, including pedestrians, vehicles, and environmental signage. (c) Plot illustrating the spread of question sets across six contextual dimensions:

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.