[論文レビュー] Real-time Action Recognition with Enhanced Motion Vector CNNs
本稿では、計算上のボトル neck を回避するために、光流に基づく代わりに動きベクトル(MVs)を用いたリアルタイム行動認識手法を提案する。事前に学習された光流畳み込みニューラルネットワーク(CNN)からMVベースのCNNへ、初期化、監督、および統合された distillation を通じた知識の転送により、390.7 fps の速度で最先端の精度を達成した。これは二流体ネットワークの27倍速く、UCF101およびTHUMOS14データセットでも高い性能を維持している。
The deep two-stream architecture exhibited excellent performance on video based action recognition. The most computationally expensive step in this approach comes from the calculation of optical flow which prevents it to be real-time. This paper accelerates this architecture by replacing optical flow with motion vector which can be obtained directly from compressed videos without extra calculation. However, motion vector lacks fine structures, and contains noisy and inaccurate motion patterns, leading to the evident degradation of recognition performance. Our key insight for relieving this problem is that optical flow and motion vector are inherent correlated. Transferring the knowledge learned with optical flow CNN to motion vector CNN can significantly boost the performance of the latter. Specifically, we introduce three strategies for this, initialization transfer, supervision transfer and their combination. Experimental results show that our method achieves comparable recognition performance to the state-of-the-art, while our method can process 390.7 frames per second, which is 27 times faster than the original two-stream method.
研究の動機と目的
- 二流体CNNのリアルタイム処理制限に取り組む。これは、高コストな光流計算によって遅延が生じるためである。
- 光流の代わりに粗いおよびノイジーな動きベクトルを使用することによる性能劣化を克服する。
- 光流と動きベクトルの相関関係を活用し、光流CNNから動きベクトルCNNへ微細な動きの知識を転送する。
- 精度を損なわせることなく、リアルタイムで動画を処理できる高速でエンドツーエンドの行動認識システムを開発する。
提案手法
- 別個の光流計算を回避するため、圧縮動画ファイルから直接抽出した動きベクトルに光流を置き換える。
- 事前学習済みの光流CNN(教師モデル)からの特徴を転送する知識 distillation 技術を用いて、動きベクトルCNN(MV-CNN)を学生モデルとして訓練する。
- 3つの知識転送戦略を適用する:(1) 初期化転送(事前学習済み光流CNNの1層目のフィルタでMV-CNNを初期化)、(2) 監督転送(光流CNNのソフトラベルを用いてMV-CNNの訓練を監督)、(3) 結合転送(両方の方法を併用)。
- RGBと動きベクトルストリームを独立して処理し、最終分類のための統合を実施する二流体アーキテクチャを採用する。
- テスト時に光流推定を一切避けるために、推論速度を最適化するため、動きベクトルのデコードにのみ依存する。
- 1層目の畳み込み層のフィルタを可視化し、知識 distillation がMV-CNNの特徴品質を向上させ、ノイズを低減することを定性的に検証する。
実験結果
リサーチクエスチョン
- RQ1圧縮動画から抽出した動きベクトルが、精度に顕著な損失を伴わずに、深層行動認識における光流の代替として使用可能かどうか。
- RQ2事前学習済みの光流CNNからの知識が、動きベクトルCNNの性能をどの程度向上できるか。
- RQ3光流から粗い動きベクトルへ微細な動きパターンを転送する際に、どの知識 distillation 技術が最も効果的か。
- RQ4動きベクトルベースのCNNは、光流ベースの二流体ネットワークと同等の精度を維持しながら、リアルタイム推論速度を達成できるか。
主な発見
- 本手法はUCF101で390.7 fps、THUMOS14で403.2 fpsを達成した。これは元の二流体手法の27倍速く、iDT+CNNの200倍速い。
- 知識 distillation を適用した動きベクトルCNN(EMV-CNN)はTHUMOS14で61.5%の平均平均精度(mAP)を達成し、MV+FV(44.7%)を上回り、iDT+FV(63.1%)と同等の性能を示したが、はるかに高速であった。
- EMV-CNNモデルはUCF101(3分割)で88.2%の精度を達成し、C3D(1 net)の4.1%以上、C3D(3 net)の1.2%以上を上回った。これは、動きベクトルのみを用いているにもかかわらずである。
- フィルタの可視化により、EMV-CNNはMV-CNNよりもクリアで構造的な特徴を学習していることが確認され、光流CNNからの知識転送が成功したことが裏付けられた。
- GPU上でブロックス光流推定と比較して、動きベクトル抽出は44倍速く、リアルタイムの30倍速く実現可能であるため、リアルタイムシステムに最適である。
- 初期化と監督転送の組み合わせが最良の性能を示し、マルチモーダルな知識 distillation が動き表現の強化に有効であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。