QUICK REVIEW

[论文解读] Delving Deeper into Convolutional Networks for Learning Video Representations

Nicolas Ballas, Li Yao|PolyPublie (École Polytechnique de Montréal)|Nov 19, 2015

Human Pose and Action Recognition参考文献 32被引用 148

一句话总结

本文提出了一种新颖的循环卷积网络（RCN），通过结合预训练ImageNet CNN所有层的多层级视觉感知（activations）与卷积GRU，建模视频中的时空特征。通过将具有卷积连接的GRU应用于低层级感知，该方法捕捉到细粒度的运动模式，同时减少参数量，在YouTube2Text视频字幕生成任务上达到最先进性能，并在UCF101动作识别任务上实现3.4%的性能提升，且无需使用3D-CNN特征。

ABSTRACT

We propose an approach to learn spatio-temporal features in videos from intermediate visual representations we call "percepts" using Gated-Recurrent-Unit Recurrent Networks (GRUs).Our method relies on percepts that are extracted from all level of a deep convolutional network trained on the large ImageNet dataset. While high-level percepts contain highly discriminative information, they tend to have a low-spatial resolution. Low-level percepts, on the other hand, preserve a higher spatial resolution from which we can model finer motion patterns. Using low-level percepts can leads to high-dimensionality video representations. To mitigate this effect and control the model number of parameters, we introduce a variant of the GRU model that leverages the convolution operations to enforce sparse connectivity of the model units and share parameters across the input spatial locations. We empirically validate our approach on both Human Action Recognition and Video Captioning tasks. In particular, we achieve results equivalent to state-of-art on the YouTube2Text dataset using a simpler text-decoder model and without extra 3D CNN features.

研究动机与目标

解决现有RCN仅依赖高层CNN特征的局限性，后者会丢失精细的空间与时间运动细节。
通过利用深层CNN中多空间分辨率的视觉感知，改进视频表征学习。
通过在GRU架构中引入卷积连接，降低处理高维感知时的模型复杂度。
通过更简单的解码器架构且不依赖额外3D-CNN特征，证明在视频理解任务中性能的提升。

提出的方法

该方法从预训练ImageNet CNN的所有层中提取视觉感知，同时利用低层级（高分辨率）和高层级（判别性）特征。
提出一种新型卷积GRU变体，将全连接操作替换为卷积操作，以在空间位置间强制实现局部连接与参数共享。
GRU独立处理CNN每层的感知特征，同时建模时间动态并保留空间拓扑结构。
模型使用双向GRU以捕捉视频序列中的长程时间依赖关系。
最终的视频表征通过拼接所有感知层级中GRU的最终隐藏状态形成。
采用交叉熵损失进行端到端训练，并基于验证负对数似然（NLL）实施早停策略。

实验结果

研究问题

RQ1与仅依赖高层特征相比，从低层级感知中建模时间变化是否能改善视频表征学习？
RQ2如何在不损失空间与时间信息的前提下，缓解低层级感知的高维特性？
RQ3一种强制实现局部性与参数共享的卷积GRU架构是否在视频任务上优于标准RNN？
RQ4该多层级感知方法是否能在不使用3D-CNN特征的情况下，实现视频字幕生成任务的SOTA性能？
RQ5所提方法是否能通过统一且更简单的解码器架构，同时有效应用于动作识别与视频字幕生成？

主要发现

与VGG-16编码器基线相比，该方法在YouTube2Text视频字幕基准上实现了BLEU分数10%的相对提升。
该模型在YouTube2Text上达到SOTA性能，使用更简单的解码器且未引入任何3D-CNN特征，优于使用复杂注意力机制或额外3D-CNN编码器的模型。
在UCF101动作识别任务上，该方法相比仅使用顶层感知的基线模型实现了3.4%的绝对性能提升。
双向GRU-RCN编码器在所有指标（BLEU、METEOR、CIDEr）上均优于VGG-16编码器，BLEU分数实现10%的相对提升。
GoogleNet与所提GRU-RCN编码器的结合实现了0.4963的BLEU分数，超越了使用C3D或分层RNN解码器的模型。
消融实验确认，多层级感知建模至关重要，仅使用高层级感知会导致性能次优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。