QUICK REVIEW

[論文レビュー] Real-Time Action Detection in Video Surveillance using Sub-Action Descriptor with Multi-CNN

Cheng‐Bin Jin, Shengzhe Li|arXiv (Cornell University)|Oct 10, 2017

Human Pose and Action Recognition被引用数 27

ひとこと要約

本論文は、不完全な行動表現を解決するために、マルチブランチCNNを用いた部分行動記述子を用いた、動画監視のためのリアルタイム行動検出フレームワークを提案する。行動を3つのレベル（ポーズ、移動、ジェスチャー）でモデル化することで、動画ベースの検出で83.5%のmAPを達成し、KTHおよびICVLデータセットにおいて最先端の手法を上回り、80 fpsを超える速度で動作する。

ABSTRACT

When we say a person is texting, can you tell the person is walking or sitting? Emphatically, no. In order to solve this incomplete representation problem, this paper presents a sub-action descriptor for detailed action detection. The sub-action descriptor consists of three levels: the posture, the locomotion, and the gesture level. The three levels give three sub-action categories for one action to address the representation problem. The proposed action detection model simultaneously localizes and recognizes the actions of multiple individuals in video surveillance using appearance-based temporal features with multi-CNN. The proposed approach achieved a mean average precision (mAP) of 76.6% at the frame-based and 83.5% at the video-based measurement on the new large-scale ICVL video surveillance dataset that the authors introduce and make available to the community with this paper. Extensive experiments on the benchmark KTH dataset demonstrate that the proposed approach achieved better performance, which in turn boosts the action recognition performance over the state-of-the-art. The action detection model can run at around 25 fps on the ICVL and more than 80 fps on the KTH dataset, which is suitable for real-time surveillance applications.

研究の動機と目的

動画監視における行動の不完全な表現（例：『テキスト送信』といった行動では、ポーズや運動の文脈的詳細が欠落している）を解決すること。
行動をポーズ、移動、ジェスチャーの3つの部分行動レベルに分解することで、行動検出の精度を向上させること。
実用的な監視応用に適したリアルタイムで多人数の行動検出システムを開発すること。
ベンチマークの支援を目的とした、新たな大規模なICVL動画監視データセットを導入すること。
高い推論速度を維持しながら、行動検出で最先端の性能を達成すること。

提案手法

部分行動記述子は、3つの階層的レベル（ポーズ：静的ボディ構成、移動：移動タイプ、ジェスチャー：手または物体とのインタラクション）を通じて行動を符号化する。
各ブランチが異なる部分行動コンponentを処理するマルチブランチCNNアーキテクチャを採用し、動画クリップからの外観ベースの時系列特徴を抽出する。
すべての3つの部分行動レベルからの特徴を統合し、リアルタイムで行動の局所化と認識を共同で行う。
CNNブランチにおける3次元畳み込み層を用いた空間的・時系列的特徴学習により、時系列モデリングを強化する。
2段階の検出パイプライン（プロポーザル生成 → マルチCNNアーキテクチャを用いた分類）を採用する。
新規に導入されたICVLデータセット上でエンドツーエンドに学習し、KTHデータセットで微調整することで、クロスデータセット一般化を実現する。

実験結果

リサーチクエスチョン

RQ1階層的な部分行動記述子は、動画監視における複雑な行動の表現を改善できるか？
RQ2ポーズ、移動、ジェスチャーの各レベルをモデル化することで、行動検出の精度にどのような影響を与えるか？
RQ3マルチCNNアーキテクチャは、大規模データセット上で高いmAPを維持しながらリアルタイム性能を達成できるか？
RQ4提案手法は、多様な動画監視シナリオおよびデータセットに良好に一般化できるか？
RQ5リアルタイム監視システムにおいて、検出精度と推論速度のトレードオフはどのように変化するか？

主な発見

提案手法は、新規に導入されたICVLデータセットを用いた動画ベースの行動検出で、83.5%の平均平均精度（mAP）を達成し、複雑な行動において強力な性能を示した。
KTHベンチマークでは、既存の手法を上回る最先端の性能を達成し、行動認識の精度で優れた結果を得た。
KTHデータセットでは80 fps以上、ICVLデータセットでは約25 fpsで動作し、監視応用におけるリアルタイム実現可能性を確認した。
部分行動記述子は、ポーズや運動の文脈といった微細な詳細を捉えることで、行動表現を顕著に向上させた。
ICVLデータセットの導入により、大規模な動画監視行動検出研究のための新たなベンチマークが提供された。
アブレーションスタディの結果、すべての3つの部分行動レベル（ポーズ、移動、ジェスチャー）が最終的な検出性能に有意義に寄与していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。