Skip to main content
QUICK REVIEW

[论文解读] CLEVRER: CoLlision Events for Video REpresentation and Reasoning

Kexin Yi, Chuang Gan|arXiv (Cornell University)|Oct 3, 2019
Multimodal Machine Learning Applications参考文献 60被引用 70
一句话总结

CLEVRER 提供一个带有真实运动轨迹和事件的合成视频数据集,用于研究描述性、解释性、预测性和反事实任务中的时序与因果推理,并对一系列基线以及一个神经符号模型进行基准测试。

ABSTRACT

The ability to reason about temporal and causal events from videos lies at the core of human intelligence. Most video reasoning benchmarks, however, focus on pattern recognition from complex visual and language input, instead of on causal structure. We study the complementary problem, exploring the temporal and causal structures behind videos of objects with simple visual appearance. To this end, we introduce the CoLlision Events for Video REpresentation and Reasoning (CLEVRER), a diagnostic video dataset for systematic evaluation of computational models on a wide range of reasoning tasks. Motivated by the theory of human casual judgment, CLEVRER includes four types of questions: descriptive (e.g., "what color"), explanatory ("what is responsible for"), predictive ("what will happen next"), and counterfactual ("what if"). We evaluate various state-of-the-art models for visual reasoning on our benchmark. While these models thrive on the perception-based task (descriptive), they perform poorly on the causal tasks (explanatory, predictive and counterfactual), suggesting that a principled approach for causal reasoning should incorporate the capability of both perceiving complex visual and language inputs, and understanding the underlying dynamics and causal relations. We also study an oracle model that explicitly combines these components via symbolic representations.

研究动机与目标

  • 通过一个受控的合成数据集,激发对视频中的时序与因果推理的研究,超越模式识别。
  • 提供一个包含真实运动轨迹和事件历史的数据集,以诊断模型在多种推理类型上的能力。
  • 评估多样化的基线模型和一个神经符号化动态推理模型,以识别因果任务的优点和局限。
  • 鼓励将对象中心感知、动力学建模和符号推理整合以实现稳健的视频理解。

提出的方法

  • 介绍一个完全受控的合成数据集,包含20,000个视频的物体碰撞,以及超过300,000个问题和答案。
  • 为每个视频标注真实对象运动轨迹和事件历史,以用于诊断评估。
  • 定义四种问题类型(描述性、解释性、预测性、反事实),每种类型均配套有功能程序。
  • 在 CLEVRER 上评估覆盖语言、视频问答与组合视觉推理的基线模型。
  • 提出神经-符号动态推理(NS-DR),结合视频帧解析器、神经动力学预测器、问题解析器和符号程序执行器。

实验结果

研究问题

  • RQ1当前模型在时序和因果结构化视频上进行描述性、解释性、预测性和反事实推理的能力有多强?
  • RQ2对象中心表示和动力学建模在多大程度上提升因果推理任务?
  • RQ3一种将感知、动力学和语言在符号推理中固定起来的神经符号方法,是否能在 CLEVRER 上超过端到端基线?
  • RQ4纯感知方法或纯符号方法在基于视频的因果推理中的局限性是什么?
  • RQ5训练数据(例如用于问题解析的程序数量)如何影响各推理任务的性能?

主要发现

  • 描述性问题最好由具备强感知能力与组合理解的模型支持,而仅语言的基线表现较差。
  • 对解释、预测和反事实问题的原因需要对象中心表示与动力学建模,单靠视觉感知不足以支撑。
  • 对象感知特征(MAC (V+))在因果任务上的表现显著优于非对象感知变体。
  • NS-DR 在描述性问题上达到高精度(88.1%),在解释性(87.6%)、预测性(79.6%)和反事实(82.9%)问题上取得显著提升。
  • 无事件变体 NS-DR (NE) 表现相当,表明可以用替代输入来适配动力学建模。
  • 用1,000个程序训练问题解析器就足以实现NS-DR的全部因果能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。