Skip to main content
QUICK REVIEW

[论文解读] Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

Kensho Hara, Hirokatsu Kataoka|arXiv (Cornell University)|Nov 27, 2017
Human Pose and Action Recognition参考文献 8被引用 114
一句话总结

本文研究大规模视频数据(Kinetics)是否能够从头训练非常深的三维卷积神经网络,以及这样的模型是否在动作识别基准上优于在 ImageNet 上预训练的二维卷积网络。研究发现 Kinetics 支持深度为 152 层的三维 ResNet,并且以 Kinetics 预训练的3D模型,特别是 ResNeXt-101,在 UCF-101 和 HMDB-51 上优于若干二维基线。

ABSTRACT

The purpose of this study is to determine whether current video datasets have sufficient data for training very deep convolutional neural networks (CNNs) with spatio-temporal three-dimensional (3D) kernels. Recently, the performance levels of 3D CNNs in the field of action recognition have improved significantly. However, to date, conventional research has only explored relatively shallow 3D architectures. We examine the architectures of various 3D CNNs from relatively shallow to very deep ones on current video datasets. Based on the results of those experiments, the following conclusions could be obtained: (i) ResNet-18 training resulted in significant overfitting for UCF-101, HMDB-51, and ActivityNet but not for Kinetics. (ii) The Kinetics dataset has sufficient data for training of deep 3D CNNs, and enables training of up to 152 ResNets layers, interestingly similar to 2D ResNets on ImageNet. ResNeXt-101 achieved 78.4% average accuracy on the Kinetics test set. (iii) Kinetics pretrained simple 3D architectures outperforms complex 2D architectures, and the pretrained ResNeXt-101 achieved 94.5% and 70.2% on UCF-101 and HMDB-51, respectively. The use of 2D CNNs trained on ImageNet has produced significant progress in various tasks in image. We believe that using deep 3D CNNs together with Kinetics will retrace the successful history of 2D CNNs and ImageNet, and stimulate advances in computer vision for videos. The codes and pretrained models used in this study are publicly available. https://github.com/kenshohara/3D-ResNets-PyTorch

研究动机与目标

  • 评估当前视频数据集是否足以从头训练深度 3D CNN。
  • 确定在 Kinetics 上训练的 3D CNN 的性能达到饱和的深度极限。
  • 评估迁移学习:在 UCF-101 和 HMDB-51 上微调的 Kinetics 预训练 3D CNN。
  • 比较在 Kinetics 及下游数据集上使用的深度 3D 架构(ResNet 变体、WRN、ResNeXt、DenseNet)的性能。

提出的方法

  • 设计并训练一系列基于 3D 的 ResNet 架构(ResNet-18、-34、-50、-101、-152、-200;包括前置激活、WRN、ResNeXt、DenseNet)并使用 3D 卷积。
  • 在 UCF-101、HMDB-51、ActivityNet 和 Kinetics 上从头训练;通过训练/验证损失分析过拟合。
  • 在 Kinetics 上改变网络深度以识别最佳深度(高达 200 层)。
  • 在 UCF-101 和 HMDB-51 上微调 Kinetics 预训练的 3D CNN(conv5_x 和 FC 层)。
  • 与最先进的方法进行比较(C3D、P3D、双流 I3D、ST Multiplier Net、TSN)。

实验结果

研究问题

  • RQ1是否可以在当前视频数据集上从头训练出高精度的 3D CNN?
  • RQ2Kinetics 是否支持训练与 ImageNet 上的二维 CNN 相当深度的非常深的 3D CNN?
  • RQ3在较小的动作数据集如 UCF-101 与 HMDB-51 上,Kinetics 预训练的 3D CNN 是否能有效迁移?
  • RQ4哪些 3D 架构(ResNet 变体、WRN、ResNeXt、DenseNet)在 Kinetics 和下游任务上能实现最佳性能?
  • RQ5在动作识别基准上,深度 3D CNN 与在 ImageNet 上预训练的二维架构或其他基线相比如何?

主要发现

  • ResNet-18 在 UCF-101、HMDB-51 和 ActivityNet 上出现过拟合,但在 Kinetics 上并未出现。
  • Kinetics 可以训练深度达到 152 层的 3D CNN;与 152 层相比,ResNet-200 的增益递减,表明超过该深度会过拟合。
  • 在 Kinetics 上,直接从头预训练的 3D 架构取得了有竞争力的性能,其中 ResNeXt-101 (64f) 在 Kinetics 测试集的平均准确率达到 78.4%。
  • 在 Kinetics 预训练并在 UCF-101 与 HMDB-51 上微调时,ResNeXt-101 (64f) 达到 94.5% 的 UCF-101 和 70.2% 的 HMDB-51,优于若干基于 2D 或较浅的 3D 基线。
  • RGB-I3D 与在 Kinetics 上预训练的双流 I3D 仍然是强基线,在引用比较中,双流 I3D 在 Kinetics 测试集的平均达到 78.2%。
  • Kinetics 预训练的简单 3D 架构在 UCF-101 和 HMDB-51 上优于复杂的 2D 架构;更深的 3D 网络在较小数据集上有助于迁移学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。