QUICK REVIEW

[論文レビュー] Action Recognition with Image Based CNN Features

Mahdyar Ravanbakhsh, Hossein Mousavi|arXiv (Cornell University)|Dec 13, 2015

Human Pose and Action Recognition参考文献 40被引用数 60

ひとこと要約

本論文は、ビデオデータに対する微調整なしに事前学習済みImageNet CNN特徴（fc7）を用いて、階層的CNN特徴表現を提案する。fc7特徴の時間的変化をバイナリコーディングすることで、ビット遷移に基づくキーフレームを抽出し、マルチレベルのピラミッド構造を用いて動きを捉える。KTH、UCF-Sports、UCF-11データセットで最先端の正確性を達成する。

ABSTRACT

Most of human actions consist of complex temporal compositions of more simple actions. Action recognition tasks usually relies on complex handcrafted structures as features to represent the human action model. Convolutional Neural Nets (CNN) have shown to be a powerful tool that eliminate the need for designing handcrafted features. Usually, the output of the last layer in CNN (a layer before the classification layer -known as fc7) is used as a generic feature for images. In this paper, we show that fc7 features, per se, can not get a good performance for the task of action recognition, when the network is trained only on images. We present a feature structure on top of fc7 features, which can capture the temporal variation in a video. To represent the temporal components, which is needed to capture motion information, we introduced a hierarchical structure. The hierarchical model enables to capture sub-actions from a complex action. At the higher levels of the hierarchy, it represents a coarse capture of action sequence and lower levels represent fine action elements. Furthermore, we introduce a method for extracting key-frames using binary coding of each frame in a video, which helps to improve the performance of our hierarchical model. We experimented our method on several action datasets and show that our method achieves superior results compared to other state-of-the-arts methods.

研究の動機と目的

画像で学習されたCNN特徴のみを用いて、ビデオ内の人体行動を認識する課題に取り組み、コストの高いビデオ固有の訓練を回避すること。
手作業で設計された空間的時間的記述子に依存せず、事前学習済みCNN特徴（fc7）の空間的時間的変化を用いて、ビデオ内の時間的ダイナミクスをモデリングすること。
fc7特徴のバイナリコーディングに基づく新規なキーフレーム抽出手法を導入することで、情報量の多いビデオセグメントに焦点を当て、行動認識の正確性を向上させること。
ビデオスニペット上で、粗いから細かい部分行動までを段階的にモデリングするマルチレベルピラミッド構造を用いて、行動の階層的モデリングを実現すること。
画像ベースのCNN特徴に時間的モデリングとキーフレーム選択を組み合わせることで、標準ベンチマークで最先端の手法を上回ることを示すこと。

提案手法

ImageNetで事前学習されたCNN（例：GoogLeNet）を用いて、ビデオの各フレームからfc7特徴を抽出する。
ベクトル量子化またはハッシングを用いて、各fc7特徴を短いバイナリコードに変換し、時間的比較を効率的に行う。
連続するフレーム間のバイナリコードのビット遷移を検出し、特徴の変化が顕著なセグメントをキーフレームとして特定する。
連続するキーフレーム間のビデオスニペットに分割し、複数の時間的スケールで行動をモデリングする階層的ピラミッド構造を適用する。
ピラミッドの各レベルで次元削減にPCAを適用し、すべてのレベルを連結して1つのビデオレベル特徴記述子を構築する。
記述子から時間的語彙のヒストグラムを構築し、分類器（例：SVM）を訓練して行動認識を実行する。

実験結果

リサーチクエスチョン

RQ1時間的モデリングを施した場合、事前学習済みの画像ベースCNN特徴（fc7）のみで、競争力のある行動認識性能を達成できるか？
RQ2fc7特徴のバイナリコーディングは、情報量の多いビデオセグメントの検出およびキーフレーム抽出にどの程度効果的か？
RQ3マルチレベルのピラミッド構造により、複数の時間的粒度で部分行動をモデリングすることで、行動認識性能がどの程度向上するか？
RQ4バイナリコードサイズ、ウィンドウ長、ピラミッド深さといったハイパーパrameterが、認識正確性に与える影響はどの程度か？
RQ5本手法は、標準的な行動認識ベンチマークで、既存の最先端手法を上回る性能を示すか？

主な発見

KTHデータセットでは、バイナリコードサイズ16およびピラミッドレベル4を用いた場合、ピーク性能として94.0%の正確性を達成し、最先端の正確性を実現した。
UCF-Sportsデータセットでは、20フレームのオーバーパップウィンドウと4つのピラミッドレベルを用いた場合、98.0%の最高性能を達成し、短いビデオクリップに対しても頑健であることが示された。
UCF-11では、25分割交差検証下で優れた結果を達成し、以前の最先端手法を上回る正確性の向上が報告された。
ピラミッドレベル数を増やすことで認識正確性が向上したため、細粒度の時間的モデリングが性能向上に寄与することが示された。
複数のデータセットにわたり一貫した性能向上が見られ、最適な性能はバイナリコードサイズ16およびウィンドウサイズ20〜30フレームで達成された。
KTHにおける誤り行列は、すべての行動クラスで高い正確性を示し、特に「歩行」と「方向」行動では100%のクラス別正確性を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。