QUICK REVIEW

[論文レビュー] Exploiting Image-trained CNN Architectures for Unconstrained Video Classification

Shengxin Zha, Florian Luisier|arXiv (Cornell University)|Mar 13, 2015

Human Pose and Action Recognition参考文献 49被引用数 79

ひとこと要約

この論文では、市販の画像学習済みCNNを用いた、シンプルでありながら効果的な動画分類パイプラインを提案している。特徴抽出、プーリング、正規化、および動き特徴とのラテントファージョンの選択的組み合わせにより、性能が顕著に向上することを示している。TRECVID MED’14およびUCF-101において、非CNNベースラインを上回り、特にCNN特徴と動きベースのIDT+FV特徴を融合させた場合に最先端の結果を達成している。

ABSTRACT

We conduct an in-depth exploration of different strategies for doing event detection in videos using convolutional neural networks (CNNs) trained for image classification. We study different ways of performing spatial and temporal pooling, feature normalization, choice of CNN layers as well as choice of classifiers. Making judicious choices along these dimensions led to a very significant increase in performance over more naive approaches that have been used till now. We evaluate our approach on the challenging TRECVID MED'14 dataset with two popular CNN architectures pretrained on ImageNet. On this MED'14 dataset, our methods, based entirely on image-trained CNN features, can outperform several state-of-the-art non-CNN models. Our proposed late fusion of CNN- and motion-based features can further increase the mean average precision (mAP) on MED'14 from 34.95% to 38.74%. The fusion approach achieves the state-of-the-art classification performance on the challenging UCF-101 dataset.

研究の動機と目的

微調整を行わずに、画像で学習されたCNNが非制約的な動画分類において強力な性能を達成できるかどうかを調査すること。
画像用CNNを動画に適応させる際の最適な設計選択肢（CNN層の選定、プーリング、正規化、分類器など）を同定すること。
CNN特徴と動きベースの記述子（IDT+FV）とのラテントファージョンが、動画分類の精度に与える影響を評価すること。
微調整なしで、非CNNおよび一部のCNNベースの最先端手法を上回る強力な2D CNNベースラインを確立すること。

提案手法

サンプリングされた動画フレームに対して、事前学習済みImageNet CNN（AlexNetおよびVGG）を固定された特徴抽出器として使用する。
空間的最大プーリングと時間的平均プーリングを適用し、フレームおよび空間領域にわたる特徴を統合する。
L2またはL2+L1正規化を用いて特徴を正規化し、頑健性と一般化性能を向上させる。
CNN特徴と動きベースのIDT+FV特徴の予測を平均化することで、外見情報と動き情報を統合するラテントファージョンを実装する。
イベント検出のため、プールドおよび正規化された特徴上でカーネルSVM分類器を訓練する。
動画全体にわたって均等にフレームをサンプリングし、一貫した時間的カバレッジを確保するためのフレーム選択を補正する。

実験結果

リサーチクエスチョン

RQ1市販の画像学習済みCNNは、微調整なしで非制約的な動画分類において競争力のある性能を達成できるか？
RQ2どのCNN層と特徴抽出戦略が動画分類において最良の性能をもたらすか？
RQ3画像学習済みCNNを動画に適用する際、時間的および空間的プーリングは最終分類精度にどのように影響するか？
RQ4動きベースの特徴（IDT+FV）とのラテントファージョンは、CNNオンリーモデルに比べて顕著に性能を向上させるか？
RQ5提案手法は、最先端の非CNNおよびCNNベースの動画分類モデルと比較してどのように評価されるか？

主な発見

TRECVID MED’14データセットでは、提案されたCNNオンリーモデルが複数の最先端の非CNNモデルを上回り、平均平均精度（mAP）34.95％を達成した。
CNN特徴（隠れ層6）とIDT+FV動き特徴のラテントファージョンにより、MED’14のmAPは38.74％まで上昇し、最先端の性能を達成した。
UCF-101データセットでは、CNN隠れ層6とIDT+FV特徴のラテントファージョンにより、平均正答率89.62％を達成し、2ストリームCNNおよびLSTMベースのアプローチを上回った。
CNNベースのアプローチはリアルタイム推論を達成し、特徴抽出に動画再生時間の0.4倍しかかからず、23,953本の動画を15秒で処理完了した。
CNN特徴を用いた分類器の学習は90秒で完了したが、フィッシャー特徴を用いた場合は150秒と長くかかった。推論時間についても顕著に高速であった。
本手法は、微調整なしで非CNNおよび一部の特化した空間時間的CNNモデルを上回る強力な2D CNNベースラインを確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。