[論文レビュー] CNN-Based Action Recognition and Pose Estimation for Classifying Animal Behavior from Videos: A Survey
CNNベースの人間の行動認識と姿勢推定技術の調査と、それらの動物行動分類への適用に関する概要。監視レベルとアーキテクチャの進化に焦点を当てる。
Classifying the behavior of humans or animals from videos is important in biomedical fields for understanding brain function and response to stimuli. Action recognition, classifying activities performed by one or more subjects in a trimmed video, forms the basis of many of these techniques. Deep learning models for human action recognition have progressed significantly over the last decade. Recently, there is an increased interest in research that incorporates deep learning-based action recognition for animal behavior classification. However, human action recognition methods are more developed. This survey presents an overview of human action recognition and pose estimation methods that are based on convolutional neural network (CNN) architectures and have been adapted for animal behavior classification in neuroscience. Pose estimation, estimating joint positions from an image frame, is included because it is often applied before classifying animal behavior. First, we provide foundational information on algorithms that learn spatiotemporal features through 2D, two-stream, and 3D CNNs. We explore motivating factors that determine optimizers, loss functions and training procedures, and compare their performance on benchmark datasets. Next, we review animal behavior frameworks that use or build upon these methods, organized by the level of supervision they require. Our discussion is uniquely focused on the technical evolution of the underlying CNN models and their architectural adaptations (which we illustrate), rather than their usability in a neuroscience lab. We conclude by discussing open research problems, and possible research directions. Our survey is designed to be a resource for researchers developing fully unsupervised animal behavior classification systems of which there are only a few examples in the literature.
研究の動機と目的
- 動画の時空間特徴を学習するためのCNNアーキテクチャ(2D、two-stream、3D)と、それらの動物行動への適用の基礎的概要を提供する。
- 監視レベルと学習戦略( supervised、semi-supervised、unsupervised )に基づいて動物行動分類フレームワークを整理する。
- 比較を可能にするために、姿勢推定、次元削減、クラスタリングなどのアーキテクチャの進化と要素を示す。
- 完全な無監視による動物行動分類システムのオープンな問題と今後の方向性を論じる。
提案手法
- Action recognitionと姿勢推定のための時空間特徴を捕捉する2D、two-stream、3DのCNNをレビューする。
- 姿勢推定技術と、それが行動分類への入力としてどのように提供されるかを調査する。
- 動物行動フレームワークを監視レベルと姿勢推定および手作特徴量への依存度で分類する。
- アーキテクチャとフレームワーク間の比較を視覚的に示す。
実験結果
リサーチクエスチョン
- RQ1動画からの動物行動分類に適用されたCNNアーキテクチャと姿勢推定技術は何か?
- RQ2監視レベル(supervised、semi-supervised、unsupervised)が動物行動分類フレームワークの設計と性能にどのような影響を与えるか?
- RQ3神経科学における完全に無監督な動物行動分類の課題と今後の方向性は何か?
- RQ4姿勢推定の出力は動物行動パイプラインの行動認識とどのように統合されるか?
- RQ5動物行動分類フレームワークの評価に関連するデータセットとベンチマークは何か?],
主な発見
- 本調査は、動作認識と姿勢推定に使用される時空間特徴を学習する2D、two-stream、3DのCNNと、それらの動物行動への適用を分析する。
- 監視レベルと学習戦略で動物行動フレームワークを分類する組織的戦略を提供し、姿勢推定と手作特徴量への依存を強調する。
- CNNアーキテクチャ、姿勢推定技術、および下流のクラスタリングまたは次元削減コンポーネントを比較する図を含み、フレームワーク間の比較を可能にする。
- 完全に無監督な動物行動分類システムの開発を強調し、オープンな問題と今後の方向性を論じる。
- 人間の姿勢推定法とそれらの動物行動分類への拡張を扱い、OpenPoseなどの著名なモデルとさまざまなヒートマップ/姿勢 refinement アプローチを含む。
- 画像と動画のベンチマークデータセット(例:CCV、HMDB51、UCF101、THUMOS14、ActivityNet、Kinetics-400/600)および姿勢推定データセットを調査し、動物行動研究の文脈を形成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。