QUICK REVIEW

[論文レビュー] Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

Kensho Hara, Hirokatsu Kataoka|arXiv (Cornell University)|Nov 27, 2017

Human Pose and Action Recognition参考文献 8被引用数 114

ひとこと要約

この論文は、大規模なビデオデータセット（Kinetics）が最初から非常に深い3D CNNを訓練できるか、そしてそのようなモデルがImageNetで事前訓練された2D CNNをアクション認識ベンチマークで上回るかを調べている。Kineticsは152層までの深い3D ResNetを訓練でき、Kineticsで事前訓練された3Dモデル、特にResNeXt-101はUCF-101とHMDB-51で複数の2Dベースラインを上回る。

ABSTRACT

The purpose of this study is to determine whether current video datasets have sufficient data for training very deep convolutional neural networks (CNNs) with spatio-temporal three-dimensional (3D) kernels. Recently, the performance levels of 3D CNNs in the field of action recognition have improved significantly. However, to date, conventional research has only explored relatively shallow 3D architectures. We examine the architectures of various 3D CNNs from relatively shallow to very deep ones on current video datasets. Based on the results of those experiments, the following conclusions could be obtained: (i) ResNet-18 training resulted in significant overfitting for UCF-101, HMDB-51, and ActivityNet but not for Kinetics. (ii) The Kinetics dataset has sufficient data for training of deep 3D CNNs, and enables training of up to 152 ResNets layers, interestingly similar to 2D ResNets on ImageNet. ResNeXt-101 achieved 78.4% average accuracy on the Kinetics test set. (iii) Kinetics pretrained simple 3D architectures outperforms complex 2D architectures, and the pretrained ResNeXt-101 achieved 94.5% and 70.2% on UCF-101 and HMDB-51, respectively. The use of 2D CNNs trained on ImageNet has produced significant progress in various tasks in image. We believe that using deep 3D CNNs together with Kinetics will retrace the successful history of 2D CNNs and ImageNet, and stimulate advances in computer vision for videos. The codes and pretrained models used in this study are publicly available. https://github.com/kenshohara/3D-ResNets-PyTorch

研究の動機と目的

現在のビデオデータセットが、深い3D CNNをゼロから訓練するのに十分かを評価する。
Kineticsで訓練された3D CNNの性能が飽和する深さの限界を特定する。
転移学習を評価する：Kineticsで事前訓練された3D CNNをUCF-101およびHMDB-51でファインチューニングする。
Kineticsと下流データセットで、深い3Dアーキテクチャ（ResNet系、WRN、ResNeXt、DenseNet）を比較する。

提案手法

3D畳み込みを用いた幅広い3D ResNetベースのアーキテクチャを設計・訓練する（ResNet-18、-34、-50、-101、-152、-200を含む; pre-activation、WRN、ResNeXt、DenseNetを含む）。
UCF-101、HMDB-51、ActivityNet、Kinetics でゼロから訓練する。訓練/検証損失を通じて過学習を分析する。
Kineticsでネットワークの深さを変化させ、最適な深さを識別する（最大200層）。
UCF-101およびHMDB-51でKinetics事前訓練済みの3D CNNをファインチューニングする（conv5_xおよびFC層）。
最先端手法（C3D、P3D、二流派のI3D、ST Multiplier Net、TSN）と比較する。

実験結果

リサーチクエスチョン

RQ1現在のビデオデータセットで、3D CNNをゼロから高い精度で訓練できるか？
RQ2KineticsはImageNetの2D CNNの深さに匹敵する非常に深い3D CNNの訓練をサポートするか？
RQ3Kineticsで事前訓練された3D CNNは、UCF-101やHMDB-51のような小規模なアクションデータセットへ効果的に転移するか？
RQ4Kineticsと下流タスクで、どの3Dアーキテクチャが最高の性能を発揮するか？
RQ5アクション認識ベンチマークで、深い3D CNNはImageNetで事前訓練された2Dアーキテクチャや他のベースラインとどう比較されるか？

主な発見

ResNet-18はUCF-101、HMDB-51、ActivityNetで過学習するが、Kineticsではそうでない。
Kineticsは深い3D CNNを最大152層まで訓練可能; ResNet-200は152層と比較して利得が低下し、深さがそれを超えると過学習を示す。
Kineticsで、ゼロから訓練した3Dアーキテクチャが競争力のある性能を達成し、ResNeXt-101 (64f)がKineticsテストセットで78.4%の平均を達成。
ResNeXt-101 (64f)はKineticsで事前訓練されファインチューニングされた場合、UCF-101で94.5%、HMDB-51で70.2%を達成し、複数の2Dベースラインまたは浅い3Dベースラインを上回る。
RGB-I3Dと二流派I3DはKineticsで事前訓練され、依然として強力なベースラインである。二流派I3Dは引用比較でKineticsテストの平均78.2%を達成する。
Kineticsで事前訓練した単純な3Dアーキテクチャは、UCF-101とHMDB-51で複雑な2Dアーキテクチャを上回る。より深い3Dネットワークは小さなデータセットでの転移学習に有利である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。