QUICK REVIEW

[論文レビュー] Towards Good Practices for Very Deep Two-Stream ConvNets

Limin Wang, Yuanjun Xiong|arXiv (Cornell University)|Jul 8, 2015

Human Pose and Action Recognition参考文献 19被引用数 385

ひとこと要約

この論文では、深層ImageNetアーキテクチャ（GoogLeNet、VGGNet）を動画ドメインに適応させ、小規模なデータセットにおける過学習を抑えるために特別なトレーニング手法を採用することで、非常に深い2ストリームConvNetを動画行動認識に提案している。事前学習、データ増強、低学習率、高ドロップアウトを組み合わせることで、UCF101で91.4%という新たなSOTA精度を達成した。

ABSTRACT

Deep convolutional networks have achieved great success for object recognition in still images. However, for action recognition in videos, the improvement of deep convolutional networks is not so evident. We argue that there are two reasons that could probably explain this result. First the current network architectures (e.g. Two-stream ConvNets) are relatively shallow compared with those very deep models in image domain (e.g. VGGNet, GoogLeNet), and therefore their modeling capacity is constrained by their depth. Second, probably more importantly, the training dataset of action recognition is extremely small compared with the ImageNet dataset, and thus it will be easy to over-fit on the training dataset. To address these issues, this report presents very deep two-stream ConvNets for action recognition, by adapting recent very deep architectures into video domain. However, this extension is not easy as the size of action recognition is quite small. We design several good practices for the training of very deep two-stream ConvNets, namely (i) pre-training for both spatial and temporal nets, (ii) smaller learning rates, (iii) more data augmentation techniques, (iv) high drop out ratio. Meanwhile, we extend the Caffe toolbox into Multi-GPU implementation with high computational efficiency and low memory consumption. We verify the performance of very deep two-stream ConvNets on the dataset of UCF101 and it achieves the recognition accuracy of $91.4\%$.

研究の動機と目的

浅いアーキテクチャと小規模なトレーニングデータセットによる、深層ConvNetの動画行動認識における性能制限を解決すること。
非常に深い2ストリームネットワークのための効果的なトレーニング手法を設計することで、小規模な動画データセットにおける過学習を克服すること。
スケーラブルなディープラーニングを動画タスクに適応させるために、高効率かつ低メモリ消費のマルチGPUトレーニングを可能にするCaffeツールボックスの拡張。
非常に深いネットワークアーキテクチャと頑健なトレーニング戦略を組み合わせることで、UCF101で最先端の性能を実証すること。

提案手法

空間的ストリームと時間的ストリームにそれぞれ適用することで、非常に深いImageNetアーキテクチャ（GoogLeNetおよびVGGNet）を動画ドメインに適応させる。
両方のストリーム（空間的・時間的）に対してImageNetでの事前学習を実施し、初期化の質と一般化性能を向上させる。
小規模な動画データセットでのトレーニング中に過学習を抑えるために、より小さな学習率と高いドロップアウト率を採用する。
データの多様性と耐性を高めるために、広範なデータ増強技術を適用する。
大規模なディープラーニングを動画タスクに適応させるために、高い計算効率と低メモリ消費を実現するマルチGPU版Caffeを実装する。
融合戦略として、空間的および時間的ネットワークの予測を重み付き線形結合（時間的ストリーム：空間的ストリーム = 2:1）で統合する。

実験結果

リサーチクエスチョン

RQ1画像分類モデルから適応された非常に深い2ストリームConvNetは、行動認識において優れた性能を達成できるか？
RQ2UCF101のような小規模な動画データセットで非常に深いネットワークをトレーニングする際、過学習を防ぐために必要な具体的なトレーニング手法は何か？
RQ3アーキテクチャの深さとトレーニング手法が、動画行動認識における認識精度にどのように寄与するか？
RQ4事前学習、データ増強、正則化は、限られた動画データセットでの性能向上にどの程度寄与するか？
RQ5Caffeディープラーニングフレームワークは、非常に深い2ストリームネットワークのための効率的なマルチGPUトレーニングをサポートできるか？

主な発見

提案された非常に深い2ストリームConvNetは、UCF101データセットで91.4%という最先端の認識精度を達成した。
VGGNet-16は、空間的ストリームでClarifaiNetやGoogLeNetなどの浅いアーキテクチャよりも約5%、時間的ストリームで約4%優れた性能を示した。
非常に深い2ストリームネットワークは、元の2ストリームConvNetよりも3.4%の精度向上を達成し、深さの増加による利点を実証した。
本手法と先行手法（例：TDD+FVで90.3%）との性能差は1.1%であり、本手法の優位性を確認した。
本研究で提案された良好なトレーニング実践がなければ、THUMOS15でのより深いモデルは一般化できず、トレーニング戦略が成功の鍵であることが示された。
マルチGPU版Caffe実装により、低メモリ消費で効率的なトレーニングが可能となり、動画タスクにおける大規模なディープラーニングを支援した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。