Skip to main content
QUICK REVIEW

[論文レビュー] YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection

Jianhua Yang, Kun Dai|arXiv (Cornell University)|Feb 14, 2023
Human Pose and Action Recognition被引用数 11
ひとこと要約

YOWOv2 は、3Dバックボーンとマルチレベル2Dバックボーン、デカップル化された融合ヘッドを組み合わせてリアルタイム、アンカーなし、マルチレベル時空間アクション検出器を実現し、UCF101-24とAVAで最先端の速度-精度のトレードオフを達成します。

ABSTRACT

Designing a real-time framework for the spatio-temporal action detection task is still a challenge. In this paper, we propose a novel real-time action detection framework, YOWOv2. In this new framework, YOWOv2 takes advantage of both the 3D backbone and 2D backbone for accurate action detection. A multi-level detection pipeline is designed to detect action instances of different scales. To achieve this goal, we carefully build a simple and efficient 2D backbone with a feature pyramid network to extract different levels of classification features and regression features. For the 3D backbone, we adopt the existing efficient 3D CNN to save development time. By combining 3D backbones and 2D backbones of different sizes, we design a YOWOv2 family including YOWOv2-Tiny, YOWOv2-Medium, and YOWOv2-Large. We also introduce the popular dynamic label assignment strategy and anchor-free mechanism to make the YOWOv2 consistent with the advanced model architecture design. With our improvement, YOWOv2 is significantly superior to YOWO, and can still keep real-time detection. Without any bells and whistles, YOWOv2 achieves 87.0 % frame mAP and 52.8 % video mAP with over 20 FPS on the UCF101-24. On the AVA, YOWOv2 achieves 21.7 % frame mAP with over 20 FPS. Our code is available on https://github.com/yjh0410/YOWOv2.

研究の動機と目的

  • 小さなアクションを正確に検出できる、リアルタイムの時空間アクション検出を動機づける。
  • 小さな事例検出を改善するためのマルチレベル、アンカーなし検出フレームワークの開発。
  • 3D時空間特徴とマルチレベルの2D空間特徴を効率的に融合。
  • 計算資源予算に応じた一連のモデル(Tiny、Medium、Large)を提供。

提案手法

  • 動画クリップから時空間特徴を抽出するために3Dバックボーンを利用。
  • 三レベルでデカップル化した分類と回帰特徴を生成するために、特徴ピラミッドネットワークを備えたマルチレベル2Dバックボーンを採用。
  • 2Dと3D特徴を融合するChannelEncoderを導入し、DANetに触発された自己注意ステップを適用。
  • 各レベルでF_STをF_clsおよびF_regと別々に融合するデカップル化融合ヘッドを使用。
  • 事前定義済みのアンカーなしで訓練するため、アンカーなしのダイナミックラベル割り当て(SimOTA)を採用。
  • 確信(conf)、cls、reg項を組み合わせた損失を、因子lambdaでバランスさせて訓練。)

実験結果

リサーチクエスチョン

  • RQ1マルチレベルでアンカーなしの検出器は、リアルタイムの時空間アクション検出を実現しつつ、小規模アクションの局在化を改善できるか?
  • RQ2STAD のための2Dと3D特徴のデカップル化融合は、結合融合より優れているか?
  • RQ3Tiny/Medium/Largeのバックボーンの異なるサイズは、UCF101-24やAVAのようなデータセットで速度と精度にどのように影響するか?

主な発見

  • YOWOv2-Tiny/Medium/Largeは、UCF101-24においてYOWOよりもFLOPsとパラメータが少なく、フレームmAPとビデオmAPを向上させる。
  • デカップル化融合ヘッドは結合融合ヘッドを上回り、速度のわずかなトレードオフでF-mAPとV-mAPを向上。
  • ダイナミックラベル割り当て(SimOTA)は競争力のある性能でアンカーなし訓練を実現。
  • UCF101-24で、YOWOv2-Lは16フレームで85.2% F-mAPと52.0% V-mAP、RTX 3090で30 FPSを達成;32フレームで87.0% F-mAPと52.8% V-mAP、22 FPSに向上。
  • AVAでは、YOWOv2-Lは20FPS超でフレームmAP21.7%を達成(K=16)。
  • YOWOv2-TはF-mAPとV-mAPでYOWOを上回り、FLOPsとパラメータははるかに少ない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。