QUICK REVIEW

[论文解读] R-C3D: Region Convolutional 3D Network for Temporal Activity Detection

Huijuan Xu, Abir Das|arXiv (Cornell University)|Mar 22, 2017

Human Pose and Action Recognition参考文献 35被引用 129

一句话总结

R-C3D 是一个端到端、快速的时序活动检测模型，在提案阶段和分类阶段之间共享 3D CNN 特征，在 THUMOS’14 上实现了最先进的结果，并对 ActivityNet 和 Charades 展现出强泛化能力。

ABSTRACT

We address the problem of activity detection in continuous, untrimmed video streams. This is a difficult task that requires extracting meaningful spatio-temporal features to capture activities, accurately localizing the start and end times of each activity. We introduce a new model, Region Convolutional 3D Network (R-C3D), which encodes the video streams using a three-dimensional fully convolutional network, then generates candidate temporal regions containing activities, and finally classifies selected regions into specific activities. Computation is saved due to the sharing of convolutional features between the proposal and the classification pipelines. The entire model is trained end-to-end with jointly optimized localization and classification losses. R-C3D is faster than existing methods (569 frames per second on a single Titan X Maxwell GPU) and achieves state-of-the-art results on THUMOS'14. We further demonstrate that our model is a general activity detection framework that does not rely on assumptions about particular dataset properties by evaluating our approach on ActivityNet and Charades. Our code is available at http://ai.bu.edu/r-c3d/.

研究动机与目标

定义一个快速的端到端模型，用于检测和定位未剪辑视频中的活动。
学习共享的时空特征，用于提案生成和活动分类。
使用 3D RoI 池化和基于锚点的提案来实现可变长度的活动提案。
通过共享特征，提升滑动窗口和仅回归方法的效率。
展示在不同数据集上的通用性（THUMOS’14、ActivityNet、Charades）。

提出的方法

采用基于 C3D 的完全卷积 3D 网络对视频流进行编码，以提取共享的时空特征。
使用基于锚点的片段和时间提案子网，提出可能包含活动的时间区域。
将 2D RoI 池化扩展为 3D RoI 池化，以获得固定大小的特征，适用于可变长度的提案。
使用共享的分类子树和回归头，对提案进行分类并 refine 边界。
end-to-end 训练，在两个子网之间对位置（回归）和分类损失进行联合优化。

实验结果

研究问题

RQ1端到端的 3DConvNet 通过共享特征，是否能在未剪辑视频的时序活动检测中提升速度和准确性？
RQ2基于锚点的时序提案加上 3D RoI 池化，是否能够在各数据集上实现对灵活边界的准确检测？
RQ3与最先进方法相比，R-C3D 在 THUMOS’14、ActivityNet 和 Charades 的表现如何？
RQ4在提案阶段和分类阶段之间共享卷积特征，对推断速度有何优势？

主要发现

R-C3D 在 THUMOS’14 上实现了最先进的 mAP，尤其在较高 IoU 阈值时。
两端缓冲（对翻转视频缓冲进行推断）在 IoU 阈值范围内提高 mAP（例如在 IoU 0.5 从 27.0% 提升到 28.9%）。
在 THUMOS’14 上，按类 AP 对篮球扣篮、跳水、标枪投掷等活动的提升显著。
在 ActivityNet 和 Charades 上，R-C3D 展现出强泛化能力，使用端到端训练获得具有竞争力的结果。
R-C3D 的运行速度显著快于替代方法（在 Titan X Maxwell 为 569 fps；在 Titan X Pascal 为 1030 fps）。
该模型能够检测任意长度的活动，并通过重叠提案与边界 refinement 处理重叠活动（Charades）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。