QUICK REVIEW

[論文レビュー] Efficient Two-Stream Motion and Appearance 3D CNNs for Video Classification

Ali Diba, Ali Mohammad Pazandeh|arXiv (Cornell University)|Aug 31, 2016

Human Pose and Action Recognition被引用数 36

ひとこと要約

本論文は、事前計算された光流を必要とせず、RGB動画クリップから外見的および運動的表現を同時に学習するエンド・ツー・エンドの2ストリーム3次元畳み込みニューラルネットワーク（3D-CNN）アーキテクチャを提案する。UCF101で最先端の精度を達成するとともに、1秒間に200フレーム以上を処理するという著しい高速性を実現し、外部の光流計算を要する2ストリーム手法と比べて顕著に高速である。

ABSTRACT

The video and action classification have extremely evolved by deep neural networks specially with two stream CNN using RGB and optical flow as inputs and they present outstanding performance in terms of video analysis. One of the shortcoming of these methods is handling motion information extraction which is done out side of the CNNs and relatively time consuming also on GPUs. So proposing end-to-end methods which are exploring to learn motion representation, like 3D-CNN can achieve faster and accurate performance. We present some novel deep CNNs using 3D architecture to model actions and motion representation in an efficient way to be accurate and also as fast as real-time. Our new networks learn distinctive models to combine deep motion features into appearance model via learning optical flow features inside the network.

研究の動機と目的

2ストリームCNNにおける光流抽出の計算コストの高い前処理ステップを軽減する。
C3Dのような3D-CNNが時間的ダイナミクスを捉える能力に限界を示すのを補うために、ネットワーク内に運動表現学習を統合する。
行動分類と運動特徴学習を同時に最適化する統合的でエンド・ツー・エンドで微調整可能な3D-CNNフレームワークを構築する。
外部の光流計算を不要としつつ、2ストリームネットワークと同等の高精度を達成し、リアルタイム推論を可能にする。

提案手法

1つのストリームがRGBフレームを処理し、もう1つのストリームが3次元畳み込みを用いて動画クリップから直接運動表現を学習する2ストリーム3D-CNNアーキテクチャを設計する。
外見ストリームには、Sports-1Mで事前学習した3D-ConvNetを用い、UCF101で微調整して行動分類を実行する。
動画クリップから光流を再構築するため、3D-DeconvNetを訓練し、地面真値の光流はBrox法を用いて提供する。
行動分類と光流推定の両方をエンド・ツー・エンドで最適化する共有重み3D-CNNアーキテクチャを導入する。
最終分類のため、外見ストリームと運動ストリームの特徴を連結する。線形SVMを用いる。
中間レベルの特徴を統合する特徴レベルのフュージョンを実施。運動ストリームの最終畳み込み層からの特徴と、外見ストリームからのC3D特徴を統合する。

実験結果

リサーチクエスチョン

RQ1事前計算された光流に依存せずに、3D-CNNアーキテクチャがエンド・ツー・エンドで効果的な運動表現を学習できるか？
RQ2行動分類と光流推定の共同学習が、分類精度と推論速度に与える影響は何か？
RQ3外部の光流を用いない2ストリーム3D-CNNアーキテクチャが、事前計算された光流を用いる2ストリームCNNと同等の性能を達成できるか？また、より高速で効率的か？
RQ4外見ストリームと運動ストリームの特徴統合が、動画分類精度に与える影響は何か？
RQ5既存の2ストリームおよび3D-CNNベースラインと比較して、提案手法の推論速度はどの程度か？

主な発見

提案されたエンド・ツー・エンド2ストリーム3D-CNNは、UCF101で平均90.2%の精度を達成し、C3D（82.3%）を上回り、他の2ストリーム手法と同等またはそれを上回る。
本手法は1秒間に246フレームを処理でき、2ストリームCNNベースライン（14.3 fps）と比べ顕著に高速であり、リアルタイム推論を可能にする。
共有重みエンド・ツー・エンドネットワーク（Ours-Twostream 3Dnet）は90.2%の精度と246 fpsを達成し、共同学習が速度と性能の両方を向上させることを示した。
アブレーションスタディの結果、中間レベルの運動特徴とC3D外見特徴を統合することで、精度が85.2%から87.0%に向上した。
外部の光流計算を必要としないモデルは、iDT+FV（2.1 fps）のような事前計算に依存する手法よりも高速であった。
結果から、ネットワーク内に運動表現を学習することが、外部の光流計算に依存するよりも効率的かつ効果的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。