[論文レビュー] Action Machine: Rethinking Action Recognition in Trimmed Videos
Action Machineは、RGBベースの行動認識、人物ポーズ推定、ポーズベースの行動認識を共同で学習することで、トリムド動画の行動認識の性能を向上させる人物中心のフレームワークを提案する。人物のバウンディングボックスを用いて動画をクロップし、RGBストリームとポーズストリームの予測を統合することで、NTU RGB-Dクロスビューで97.2%のトップ1精度、クロスサブジェクトで94.3%のトップ1精度を達成し、高速な推論(1クリップあたり約55ms)を実現した。
Existing methods in video action recognition mostly do not distinguish human body from the environment and easily overfit the scenes and objects. In this work, we present a conceptually simple, general and high-performance framework for action recognition in trimmed videos, aiming at person-centric modeling. The method, called Action Machine, takes as inputs the videos cropped by person bounding boxes. It extends the Inflated 3D ConvNet (I3D) by adding a branch for human pose estimation and a 2D CNN for pose-based action recognition, being fast to train and test. Action Machine can benefit from the multi-task training of action recognition and pose estimation, the fusion of predictions from RGB images and poses. On NTU RGB-D, Action Machine achieves the state-of-the-art performance with top-1 accuracies of 97.2% and 94.3% on cross-view and cross-subject respectively. Action Machine also achieves competitive performance on another three smaller action recognition datasets: Northwestern UCLA Multiview Action3D, MSR Daily Activity3D and UTD-MHAD. Code will be made available.
研究の動機と目的
- 行動認識モデルがシーンや物体の手がかりに過学習する問題に対処するため、人間の身体運動に焦点を当てる。
- 既存の行動認識アプローチでモデルを誤導する環境的文脈やオブジェクトレベルの特徴に依存するのを減らす。
- マルチタスク学習フレームワーク内でポーズ推定を明示的に用いて人間の動きをモデル化することで、汎化性とロバスト性を向上させる。
- 人物クロッピング、行動認識とポーズ推定の共同学習、予測統合を統合する、高速で汎用的かつ高性能なフレームワークを開発する。
提案手法
- 背景のゴミを減らすために、人物のバウンディングボックスを用いて入力動画をクロップし、人間中心のコンテンツに限定する。
- フレーム単位の人物ポーズ推定のための並列デコンボリューションヘッドを、インフレートド3D畳み込みネット(I3D)に拡張する。
- 推定されたポーズシーケンスに対してポーズベースの行動認識を実行する2次元CNNブランチを導入する。
- 共有されたI3D特徴を用いて、RGBベースの行動認識、ポーズ推定、ポーズベースの行動認識の3つのタスクをマルチタスク学習で行う。
- 推論時に、RGB分類ヘッドとポーズ分類ヘッドの最終予測を要素ごとの和算により統合する。
- ポーズ推定にはCOCOで事前学習したモデルを用い、動画行動認識データセットで微調整することで、ロバスト性を向上させる。
実験結果
リサーチクエスチョン
- RQ1行動認識とポーズ推定の共同学習は、トリムド動画の行動認識性能を向上させるか?
- RQ2バウンディングボックスによるクロッピングによる人物中心モデリングは、動画データセットにおけるシーンや物体のアーチファクトへの過学習を軽減するか?
- RQ3RGBストリームとポーズストリームの予測統合は、単一モダリティを使用する場合と比較して、行動認識でどのように性能を発揮するか?
- RQ4ポーズ推定を用いたマルチタスク学習は、行動認識の特徴学習をどの程度向上させるか?
- RQ5RGBストリームとポーズストリームを単純に組み合わせた汎用的で軽量なフレームワークは、最小限の計算コストでSOTA性能を達成できるか?
主な発見
- Action Machineは、NTU RGB-Dクロスビュー分割で97.2%のトップ1精度を達成し、新たなSOTAを樹立した。
- NTU RGB-Dクロスサブジェクト分割では、94.3%のトップ1精度を達成し、先行手法を上回った。
- Northwestern UCLA Multiview Action3Dでは、ResNet-18を用い、共同学習を適用した場合、ベースラインから7.2ポイント向上した。
- アブレーションスタディの結果、人物クロッピングのみで、異なる分割で1.6〜4.3ポイントの精度向上が確認された。一方、ポーズ推定との共同学習により、3〜7ポイントの性能向上が得られた。
- NTU RGB-Dで事前学習したResNet-50を用いることで、xview3分割で96.5%の精度に向上し、より強力なバックボーンと事前学習の利点を示した。
- TitanX GPU上では18フレームクリップあたり約55msで推論が実行され、マルチストリーム推論であるにもかかわらず、効率的であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。