QUICK REVIEW

[论文解读] Motion-Appearance Co-Memory Networks for Video Question Answering

Jiyang Gao, Runzhou Ge|arXiv (Cornell University)|Mar 29, 2018

Multimodal Machine Learning Applications参考文献 39被引用 23

一句话总结

该论文提出了一种用于视频问答的运动-外观协同记忆网络，通过协同注意力机制联合建模运动与外观特征，利用时间卷积-转置网络生成多层次上下文事实，并采用动态事实集成方法实现针对问题的推理。该模型在TGIF-QA数据集上达到最先进性能，在所有四项任务中均优于先前方法，动作识别准确率达到68.2%，计数任务的MSE为4.10。

ABSTRACT

Video Question Answering (QA) is an important task in understanding video temporal structure. We observe that there are three unique attributes of video QA compared with image QA: (1) it deals with long sequences of images containing richer information not only in quantity but also in variety; (2) motion and appearance information are usually correlated with each other and able to provide useful attention cues to the other; (3) different questions require different number of frames to infer the answer. Based these observations, we propose a motion-appearance comemory network for video QA. Our networks are built on concepts from Dynamic Memory Network (DMN) and introduces new mechanisms for video QA. Specifically, there are three salient aspects: (1) a co-memory attention mechanism that utilizes cues from both motion and appearance to generate attention; (2) a temporal conv-deconv network to generate multi-level contextual facts; (3) a dynamic fact ensemble method to construct temporal representation dynamically for different questions. We evaluate our method on TGIF-QA dataset, and the results outperform state-of-the-art significantly on all four tasks of TGIF-QA.

研究动机与目标

为解决视频问答任务中需要建模富含时空信息的长视频序列（超越静态图像）的挑战。
利用视频问答中运动与外观特征之间的相关性，使每种模态为另一种模态提供注意力线索。
通过根据问题类型（如单帧问题与长序列问题）自适应调整相关帧的数量，实现对视频帧的动态推理。
通过整合多层次上下文事实与动态记忆更新，提升对视频序列的推理能力。

提出的方法

提出一种协同记忆注意力机制，利用运动线索生成外观的注意力，同时利用外观线索生成运动的注意力，实现对两种模态的联合建模。
采用时间卷积与转置网络，从运动与外观特征中生成多层次上下文事实，同时保持时间分辨率并捕捉多样化上下文。
提出一种动态事实集成方法，自适应地组合多个记忆更新周期中的上下文事实，以满足每道问题的特定需求。
在动态记忆网络（DMN）框架基础上进行改进，引入双流特征（光流CNN用于运动，ResNet-152用于外观），并扩展为模态特定的记忆状态。
采用多轮记忆更新过程（T=2或T=3），通过迭代注意力与记忆更新逐步优化推理，提升复杂时间推理任务的性能。
在完整模型中对三层上下文事实实施软融合，以增强表征学习与推理准确性。

实验结果

研究问题

RQ1如何联合建模运动与外观特征，以提升视频问答中的注意力选择？
RQ2在有效的视频问答推理中，最优的记忆更新轮次数量是多少？
RQ3通过卷积-转置网络生成的多层次上下文事实，是否能提升对长视频序列的推理能力？
RQ4动态事实集成方法如何提升对不同时间上下文长度需求的多样化问题类型的表现？

主要发现

该模型在动作识别任务上达到68.2%的准确率，显著优于此前最先进方法的62.9%。
在状态转移任务中，模型准确率达到74.3%，超过最先进方法的69.4%。
在基于帧的问答任务中，模型准确率达到51.5%，超过最先进方法的49.5%。
在重复计数任务中，模型的均方误差（MSE）为4.10，优于最先进方法的4.32。
消融实验表明，两轮记忆更新（T=2）性能最佳，T=3时收益递减。
动态事实集成方法显著提升性能，体现在将该方法加入协同记忆模型后，动作识别准确率从66.8%提升至68.2%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。