[论文解读] UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics
UDVideoQA 引入了一个大规模、隐私保护的交通视频问答数据集,含 16 小时录像和 28,800 条问答对,以及 VideoQGen 基准测试,揭示 VideoLMs 的感知–推理差距在持续存在,并显示微调的开源模型在性能上可接近专有系统。
Understanding the complex, multi-agent dynamics of urban traffic remains a fundamental challenge for video language models. This paper introduces Urban Dynamics VideoQA, a benchmark dataset that captures the unscripted real-world behavior of dynamic urban scenes. UDVideoQA is curated from 16 hours of traffic footage recorded at multiple city intersections under diverse traffic, weather, and lighting conditions. It employs an event-driven dynamic blur technique to ensure privacy preservation without compromising scene fidelity. Using a unified annotation pipeline, the dataset contains 28K question-answer pairs generated across 8 hours of densely annotated video, averaging one question per second. Its taxonomy follows a hierarchical reasoning level, spanning basic understanding and attribution to event reasoning, reverse reasoning, and counterfactual inference, enabling systematic evaluation of both visual grounding and causal reasoning. Comprehensive experiments benchmark 10 SOTA VideoLMs on UDVideoQA and 8 models on a complementary video question generation benchmark. Results reveal a persistent perception-reasoning gap, showing models that excel in abstract inference often fail with fundamental visual grounding. While models like Gemini Pro achieve the highest zero-shot accuracy, fine-tuning the smaller Qwen2.5-VL 7B model on UDVideoQA bridges this gap, achieving performance comparable to proprietary systems. In VideoQGen, Gemini 2.5 Pro, and Qwen3 Max generate the most relevant and complex questions, though all models exhibit limited linguistic diversity, underscoring the need for human-centric evaluation. The UDVideoQA suite, including the dataset, annotation tools, and benchmarks for both VideoQA and VideoQGen, provides a foundation for advancing robust, privacy-aware, and real-world multimodal reasoning. UDVideoQA is available at https://ud-videoqa.github.io/UD-VideoQA/UD-VideoQA/.
研究动机与目标
- 捕捉真实世界的多智能体城市交通动态,并在 varied lighting and weather conditions 下给出密集的问答注释。
- 通过事件驱动的动态模糊实现隐私保护注释,同时保持场景保真度。
- 创建 VideoQA 与 VideoQGen 的基准,评估交通场景中的定位、时序和因果推理。
提出的方法
- 从城市路口的监控摄像头中筛选 16 小时(1.7M 帧)视频,覆盖多样条件,帧率为 30 fps。
- 将视频片段分割为 10 秒的片段,并应用事件驱动的基于运动的模糊以实现隐私保护。
- 使用知情标注流水线结合人机交互验证,自动生成一组 QA 对。
- 定义涵盖归因、基本理解、事件推理、反向推理和反事实推理的层级化 QA 分类。
- 在 VideoQA 上评估 10 个最先进的 VideoLM,以及在 VideoQGen 上评估 8 个模型,采用零-shot 和微调两种设置。
- 采用语义-语义评分方法,结合 LL M 评审和加权复杂性评分来评估推理准确性。

实验结果
研究问题
- RQ1当前的 VideoLMs 在多智能体真实世界城市交通场景中的定位与推理能力如何?
- RQ2这些模型在感知定位与更高阶推理之间存在何种差距?
- RQ3通过微调的域自适应能否缩小开源模型与专有系统在城市交通 VideoQA 上的差距?
- RQ4在交通场景的 VideoQGen 设置中,自动生成的问题在多样性与情境定位方面有多大程度的保障?
- RQ5哪些隐私保护技术能够在确保匿名化的同时维持场景保真?
主要发现
- UDVideoQA 含 16 小时视频(1.7M 帧),在多变的天气、光照和密度条件下含有 28,800 条问答对。
- 事件驱动的动态模糊方法在隐私保护方面优于检测器–分割器基线,并更好地保持时序/上下文完整性。
- 十个 SOTA VideoLM 表现出持续的感知–推理差距;高级推理往往优于底层视觉定位。
- Gemini 2.5 Pro 实现了最高的零-shot/总体性能,但在晨间条件下归因定位较弱;在适当微调下,较小的开源模型可达到或接近专有系统。
- 在 VideoQGen 中,Gemini 2.5 Pro 与 Qwen3 系列生成最相关、最复杂的问题,但各模型的语言多样性仍然有限。
- 对开源 Qwen-2.5-VL 7B 进行 UDVideoQA 微调可缩小与专有系统之间的差距,归因与跨领域泛化方面有显著提升。
- 该数据集支持跨数据集泛化,微调后的 UDVideoQA 模型在 RoadSocial 与 SUTDTrafficQA 基准上表现提升。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。