QUICK REVIEW

[論文レビュー] You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization

Okan Köpüklü, Xiangyu Wei|arXiv (Cornell University)|Nov 15, 2019

Human Pose and Action Recognition参考文献 45被引用数 107

ひとこと要約

YOWOは、2Dキーフレームと3DクリップブランチをCFAMで融合するリアルタイムのシングルステージアーキテクチャを提示し、空間と時間でのアクションを局在化し、リアルタイム速度で動作しながら最先端の frame-mAP を達成する。

ABSTRACT

Spatiotemporal action localization requires the incorporation of two sources of information into the designed architecture: (1) temporal information from the previous frames and (2) spatial information from the key frame. Current state-of-the-art approaches usually extract these information with separate networks and use an extra mechanism for fusion to get detections. In this work, we present YOWO, a unified CNN architecture for real-time spatiotemporal action localization in video streams. YOWO is a single-stage architecture with two branches to extract temporal and spatial information concurrently and predict bounding boxes and action probabilities directly from video clips in one evaluation. Since the whole architecture is unified, it can be optimized end-to-end. The YOWO architecture is fast providing 34 frames-per-second on 16-frames input clips and 62 frames-per-second on 8-frames input clips, which is currently the fastest state-of-the-art architecture on spatiotemporal action localization task. Remarkably, YOWO outperforms the previous state-of-the art results on J-HMDB-21 and UCF101-24 with an impressive improvement of ~3% and ~12%, respectively. Moreover, YOWO is the first and only single-stage architecture that provides competitive results on AVA dataset. We make our code and pretrained models publicly available.

研究の動機と目的

個別の提案段階や融合段階を分離せず、リアルタイムの時空間アクションローカリゼーションを動機づける。
2D空間特徴と3D時間特徴を組み合わせた統一のエンドツーエンドアーキテクチャを提案する。
標準ベンチマークでリアルタイム性能と競争力のある精度を示す。
チャネルアテンションによるクロスブランチ統合を通じた効果的な特徴融合を検討する。

提案手法

2D-CNNをキー帧に、3D-CNNを短いビデオクリップに用いた2つの平行ブランチを備えるYOWOを導入する。
Gram行列の相関に基づくChannel Fusion and Attention Mechanism (CFAM)を介して両ブランチの特徴を融合する。
グリッドセルあたり5つのアンカーを持つYOLO様のヘッドを用いて1段階でバウンディングボックス回帰を行う。
局在化にはスムーズL1、信頼度にはMSE、分類にはαバランス版の focal loss を含む複合損失でエンドツーエンドで訓練する。
推論時にLong-Term Feature Bank (LFB)を取り入れて因果性を損なうことなく時間的文脈を強化する。
フレーム間でアクションチューブを形成するリンクアルゴリズムを用い、フレームレベルおよびビデオレベルの性能を評価する。

実験結果

リサーチクエスチョン

RQ1単一段階のアーキテクチャは、2D空間特徴と3D時間特徴を効果的に融合して時空間アクションを局在化できるだろうか？
RQ2Gram行列ベースのチャネルアテンションモジュールは、クロスブランチ特徴融合と検出精度を向上させるだろうか？
RQ3クリップ長、ダウンサンプリング、バックボーンの複雑さの間のトレードオフは、精度と速度にどう影響するか？
RQ4オンライン/因果設定で特に、UCF101-24、J-HMDB-21、AVAにおけるYOWOの性能は従来手法と比べてどうか？

主な発見

YOWOは16フレームクリップで34 fps、8フレームクリップで62 fpsを達成し、その時点で時空間アクションローカライゼーションの最速の最先端である。
UCF101-24では、2D+3D+CFAMを用いたYOWOはIoU 0.5で79.2%のframe-mAPを達成（2D単独61.6%、3D単独70.5%、2D+3D73.8%と比較）
J-HMDB-21では、2D+3D+CFAMで64.9%のframe-mAPを達成（2D単独36.0%、3D単独41.5%、2D+3D47.1%と比較）
AVAでは、2D+3D+CFAMで16.4%のframe-mAPを達成（2D単独13.2%、3D単独13.7%、2D+3D16.0%と比較）
アブレーションにより、3D-CNNは分類リコールを強化、2D-CNNは局所化の強さを提供し、CFAMは両方を向上させることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。