QUICK REVIEW

[論文レビュー] Cross-view Action Modeling, Learning and Recognition

Jiang Wang, Xiaohan Nie|arXiv (Cornell University)|May 12, 2014

Human Pose and Action Recognition参考文献 23被引用数 56

ひとこと要約

本稿では、2次元動画におけるクロスビュー行動認識のためのマルチビュー時空間AND-ORグラフ（MST-AOG）モデルを提案する。トレーニングでは3次元人体スケルトンデータを活用するが、推論時には3次元入力を必要としない。モデルは視点間で幾何、外観、運動の階層的モデリングを実現し、81.6%の精度を達成し、被験者や環境の変化に対しても高い耐性を示す。

ABSTRACT

Existing methods on video-based action recognition are generally view-dependent, i.e., performing recognition from the same views seen in the training data. We present a novel multiview spatio-temporal AND-OR graph (MST-AOG) representation for cross-view action recognition, i.e., the recognition is performed on the video from an unknown and unseen view. As a compositional model, MST-AOG compactly represents the hierarchical combinatorial structures of cross-view actions by explicitly modeling the geometry, appearance and motion variations. This paper proposes effective methods to learn the structure and parameters of MST-AOG. The inference based on MST-AOG enables action recognition from novel views. The training of MST-AOG takes advantage of the 3D human skeleton data obtained from Kinect cameras to avoid annotating enormous multi-view video frames, which is error-prone and time-consuming, but the recognition does not need 3D information and is based on 2D video input. A new Multiview Action3D dataset has been created and will be released. Extensive experiments have demonstrated that this new action representation significantly improves the accuracy and robustness for cross-view action recognition on 2D videos.

研究の動機と目的

2次元動画からの未観測の視点での行動認識の課題に取り組む。既存手法は視点依存的な特徴学習のため、その課題に失敗する。
幾何、外観、運動の変動を複数の視点で統合的にモデリングする、構成的で階層的なモデルを構築する。
多視点動画アノテーションの高コストを低減するため、トレーニングに3次元スケルトンデータを代理として用いる。
推論時に3次元入力を必要とせず、2次元動画入力でのクロスビュー、クロス被験者、クロス環境行動認識を可能にする。
データ駆動的学習により、判別性の高いポーズと視点不変構造を発見し、一般化性能を向上させる。

提案手法

MST-AOGモデルは、行動、ポーズ、視点、体部、特徴をノードとして持つ階層的AND-ORグラフ構造を採用し、時空間パターンの構成的モデリングを可能にする。
上位層でのグランドイングにより、低解像度の空間的・時間的特徴を捉えることで、耐性を高め、アノテーション負荷を軽減する。
トレーニング段階でKinectセンサーから得られる3次元人体スケルトンデータを用い、2次元視点投影と視点間の幾何的関係を明示的にモデリングする。
頻度が高く判別性の高いポーズを自動で発見するための判別的データマイニング手法を提案し、行動ノード構造の基盤を形成する。
マルチビュー動画と3次元スケルトンからの外観および運動特徴を学習し、3次元入力なしで2次元動画に対する推論を可能にする。
推論段階では、確率的推論を用いて階層構造を走査することで、クロスビューのポーズ検出と行動分類を実行する。

実験結果

リサーチクエスチョン

RQ13次元スケルトンデータをトレーニングに用いることで、2次元動画におけるクロスビュー行動変動を構成的生成モデルが効果的に表現できるか？
RQ2複数の視点における幾何、外観、運動の変動を、階層的構造で一体的にモデリングできるか？
RQ3推論時に3次元入力を必要としない状況でも、モデルが新たな視点に一般化できるか？
RQ4低解像度特徴を用いることで、クロスビュー、クロス被験者、クロス環境設定における耐性がどの程度向上するか？
RQ5提案されたデータ駆動的ポーズ発見手法は、ベースライン手法と比較して認識精度をどの程度向上させるか？

主な発見

MST-AOGモデルは、マルチビュー行動3Dデータセットにおいてクロスビューテストで81.6%の認識精度を達成し、先行手法を顕著に上回る。
被験者や環境の変化に対しても耐性を示し、クロス環境テストでは79.3%の精度を達成。最も優れたベースライン手法は27.4%にとどまる。
低解像度特徴の使用により認識精度が向上し、視覚的変動へのモデルの有効性が裏付けられる。
混同行列から、『片手で持ち上げる』と『両手で持ち上げる』の行動が、類似した運動と外観のため最も頻繁に混同されていることが判明。
MSR-DailyActivity3Dデータセットでは、RGB動画入力のみで73.1%の精度を達成。Poselet（23.75%）やAction Bank（23%）といった手法を上回る。
モデルはポーズと視点の検出に成功しており、今後の課題として、人間と物体の相互作用モデリングの統合による複雑行動の認識向上を検討する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。