QUICK REVIEW

[論文レビュー] A Comprehensive Study of Deep Video Action Recognition

Yi Zhu, Xinyu Li|arXiv (Cornell University)|Dec 11, 2020

Human Pose and Action Recognition参考文献 274被引用数 115

ひとこと要約

この論文は動画アクション認識の 200+ 深層学習手法を網羅し、データセットと課題を議論し、人気モデルをベンチマークし、再現性のためのコードを公開します。

ABSTRACT

Video action recognition is one of the representative tasks for video understanding. Over the last decade, we have witnessed great advancements in video action recognition thanks to the emergence of deep learning. But we also encountered new challenges, including modeling long-range temporal information in videos, high computation costs, and incomparable results due to datasets and evaluation protocol variances. In this paper, we provide a comprehensive survey of over 200 existing papers on deep learning for video action recognition. We first introduce the 17 video action recognition datasets that influenced the design of models. Then we present video action recognition models in chronological order: starting with early attempts at adapting deep learning, then to the two-stream networks, followed by the adoption of 3D convolutional kernels, and finally to the recent compute-efficient models. In addition, we benchmark popular methods on several representative datasets and release code for reproducibility. In the end, we discuss open problems and shed light on opportunities for video action recognition to facilitate new research ideas.

研究の動機と目的

動画アクション認識における深層学習の全体像を、200+ 論文にわたって調査する。
データセットを整理し、モデル設計と評価への影響を明らかにする。
二ストリームネットワークから3D CNN、および計算効率の高いアーキテクチャへのモデルの進化を分析する。
標準データセット上で代表的な手法をベンチマークし、精度と効率を比較する。
今後の研究開発を導くオープンな課題と機会を提示する。

提案手法

動画アクション認識の核心的発展の時系列レビュー（手作り特徴量からCNN、二ストリームネットワーク、3D CNN、および計算効率の高いモデル）。
モデル設計と評価を形作るデータセットと課題の体系的な議論。
標準ベンチマークで人気の手法を経験的にベンチマークし、精度と効率を評価する。
再現性を確保するために、PyTorchとMXNetでのモデル実装を公開する。
動画アクション認識における今後の研究のためのオープンな課題と機会を分析する。

実験結果

リサーチクエスチョン

RQ1どのデータセットと評価プロトコルが、動画アクション認識モデルの設計に最も影響を及ぼしてきたか？
RQ2動画アクション認識における時系列モデリングと計算効率に対処するため、モデルアーキテクチャはどのように進化してきたか？
RQ3二ストリームと3D CNNアプローチのトレードオフは何か、計算効率の高い手法はどう比較されるか？
RQ4動画アクション認識を進展させる上での未解決の課題と機会は何か？
RQ5マルチストリームおよびマルチモダリティアプローチ（姿勢、物体、音声）は認識性能にどのように寄与するか？

主な発見

200以上の論文と17の影響力あるデータセットが、分野と評価慣行を形作った。
二ストリームネットワークは、RGBフレームと光学フローを組み合わせた外観と動情報の重要性を確立した。
3D CNNs（例：I3D）は、時空間特徴を直接モデリングすることで性能を大きく向上させ、特にKinetics400のような大規模データセットで事前学習した後に顕著だった。
セグメントベースおよび計算効率の高いモデル（例：TSN、TSM、X3D）は、長距離の時系列モデリングと大規模データセットでの展開を可能にした。
核心ベンチマークの結果は、浅いアーキテクチャから深いアーキテクチャへ、2D表現から3D表現へ移行することで顕著な向上を示し、I3Dは事前学習後にUCF101とHMDB51で高い性能を達成した。
著者らは再現性を促進するためにコードを公開し、研究者向けのモデル zoo を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。