Skip to main content
QUICK REVIEW

[论文解读] iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering

Aman Chadha, Gurneet Arora|arXiv (Cornell University)|Nov 16, 2020
Multimodal Machine Learning Applications参考文献 66被引用 24
一句话总结

iPerceive 提出了一种多模态、端到端可训练的框架,通过利用上下文线索推断事件之间的因果关系,将常识推理整合到密集视频字幕(DVC)和视频问答(VideoQA)中。通过结合视觉、音频和语音模态,并使用自监督因果损失,iPerceive 在 ActivityNet Captions(7.87 METEOR)和 TVQA(76.97% 准确率)上实现了最先进性能,展示了在推理能力和注意力机制方面相较于基线模型的显著提升。

ABSTRACT

Most prior art in visual understanding relies solely on analyzing the "what" (e.g., event recognition) and "where" (e.g., event localization), which in some cases, fails to describe correct contextual relationships between events or leads to incorrect underlying visual attention. Part of what defines us as human and fundamentally different from machines is our instinct to seek causality behind any association, say an event Y that happened as a direct result of event X. To this end, we propose iPerceive, a framework capable of understanding the "why" between events in a video by building a common-sense knowledge base using contextual cues to infer causal relationships between objects in the video. We demonstrate the effectiveness of our technique using the dense video captioning (DVC) and video question answering (VideoQA) tasks. Furthermore, while most prior work in DVC and VideoQA relies solely on visual information, other modalities such as audio and speech are vital for a human observer's perception of an environment. We formulate DVC and VideoQA tasks as machine translation problems that utilize multiple modalities. By evaluating the performance of iPerceive DVC and iPerceive VideoQA on the ActivityNet Captions and TVQA datasets respectively, we show that our approach furthers the state-of-the-art. Code and samples are available at: iperceive.amanchadha.com.

研究动机与目标

  • 解决当前视频理解系统仅关注 '什么' 和 '哪里',但无法通过因果推理建模 '为什么' 的局限性。
  • 通过利用多模态的上下文线索构建常识知识库,缓解视频模型中的虚假观察偏差。
  • 通过端到端训练融合视觉、音频和语音信号,提升密集视频字幕和视频问答性能。
  • 证明常识推理可通过实现更准确的事件定位和语言生成,增强模型感知能力。

提出的方法

  • iPerceive 通过使用上下文损失作为自监督信号,推断视频中物体和事件之间的因果关系,构建常识知识库。
  • 该框架采用基于 Transformer 的端到端可训练架构,联合优化视觉、音频和语音模态下的事件定位与字幕生成。
  • 通过因果推理模块生成常识特征,建模事件之间的内在关系,减少对虚假共现模式的依赖。
  • 在 DVC 中,模型在训练期间使用真实事件提议,但通过端到端训练使语言描述与时间定位事件对齐。
  • 在 VideoQA 中,iPerceive 利用 iPerceive DVC 生成的密集字幕和常识特征,回答需要推理事件关系的问题。
  • 消融实验通过在 ActivityNet Captions 和 TVQA 上的受控实验,验证了端到端训练和常识推理的贡献。

实验结果

研究问题

  • RQ1常识推理是否能通过建模事件之间的因果关系,提升密集视频字幕的准确性和连贯性?
  • RQ2与仅使用视觉的模型相比,多模态融合(视觉、音频、语音)在视频理解中如何增强因果感知?
  • RQ3端到端训练在多大程度上提升了 DVC 中视频片段与其语言描述之间的对齐?
  • RQ4在视频理解任务中,引入因果推理在多大程度上减少了由共现偏差引起的虚假关联?
  • RQ5常识特征是否能提升需要超越视觉识别的推理能力的视频问答任务性能?

主要发现

  • iPerceive DVC 在 ActivityNet Captions 验证集上取得 7.87 的 METEOR 得分,优于之前最先进方法 0.98 分。
  • 在完整模态融合下,iPerceive DVC 达到 12.27 BLEU@4 和 7.87 METEOR,证明多模态输入的优势。
  • iPerceive VideoQA 在 TVQA 测试集上达到 76.97% 的准确率,超过之前最先进方法(74.20%)2.77 个百分点。
  • 消融实验表明,结合常识推理与端到端训练可获得最高性能(7.87 METEOR),证实二者具有协同效应。
  • 引入 iPerceive DVC 生成的密集字幕和常识特征,使 VideoQA 准确率相比基线模型提升 2.77 个百分点。
  • 定性分析表明,iPerceive 通过建模因果上下文,减少了因错误关注无关物体而产生的认知错误。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。