QUICK REVIEW

[論文レビュー] Depth2Action: Exploring Embedded Depth for Large-Scale Action Recognition

Yi Zhu, Shawn Newsam|arXiv (Cornell University)|Aug 15, 2016

Human Pose and Action Recognition参考文献 41被引用数 19

ひとこと要約

本論文は、深度センサーに依存せず、RGB動画から直接深度の手がかりを推定する、大規模な人体行動認識のための新規フレームワークDepth2Actionを提案する。空間的・時間的深度正規化（STDN）と修正された深度モーショングラフ（MDMM）を用いることで、時間的深度の一貫性と微細な運動変化を効果的に捉え、UCF101、HMDB51、ActivityNetのベンチマークで外見的特徴と運動特徴と組み合わせることで最先端の性能を達成する。

ABSTRACT

This paper performs the first investigation into depth for large-scale human action recognition in video where the depth cues are estimated from the videos themselves. We develop a new framework called depth2action and experiment thoroughly into how best to incorporate the depth information. We introduce spatio-temporal depth normalization (STDN) to enforce temporal consistency in our estimated depth sequences. We also propose modified depth motion maps (MDMM) to capture the subtle temporal changes in depth. These two components significantly improve the action recognition performance. We evaluate our depth2action framework on three large-scale action recognition video benchmarks. Our model achieves state-of-the-art performance when combined with appearance and motion information thus demonstrating that depth2action is indeed complementary to existing approaches.

研究の動機と目的

RGB動画に埋め込まれた深度情報の利用が、大規模な人体行動認識において実用的で効果的であるかを検討すること。
単一視点のRGB動画からのノイズの多い深度推定を克服するため、意味のある深度手がかりを抽出するための堅牢な手法を開発すること。
特に視覚的に類似した行動を区別する際、外見的・運動的アプローチに深度情報がどのように補完的役割を果たすかを調査すること。
埋め込まれた深度を用いた特徴抽出、特徴融合戦略、ネットワークアーキテクチャの設計選択肢を評価し、最適なパフォーマンスを実現する方法を同定すること。
RGB入力のみを前提とした、深度推定、ノイズデータからの学習、マルチモーダル行動認識分野における今後の研究の基盤を構築すること。

提案手法

画像ベースの深度推定技術を用いて、RGB動画からフレーム単位で深度マップを推定することで、大規模データセットへのスケーラビリティを実現する。
推定された深度シーケンスの時間的整合性を保つために、空間的・時間的深度正規化（STDN）を適用し、ノイズを低減して信頼性を向上させる。
微細な時間的変化を捉えるために、修正された深度モーショングラフ（MDMM）を導入し、動的な深度パターンへの感受性を高める。
空間的深度特徴と時間的深度ダイナミクスを別々に処理するため、2ストリームまたはC3Dベースのネットワークアーキテクチャを採用する。
最終予測のため、サポートベクターマシン（SVM）またはエンドツーエンド分類器を用いて、深度、外見、運動ブランチからの特徴をラテナル融合する。
2D vs. 3D ConvNets、イアリー融合 vs. ラテナル融合、異なる特徴抽出器を含む複数の構成を評価し、最適な統合戦略を同定する。

実験結果

リサーチクエスチョン

RQ1RGB動画からの深度情報推定が、大規模ベンチマークにおける行動認識性能を顕著に向上させることができるか？
RQ2ノイズの多いフレーム単位の深度推定において、時間的整合性をどのように確保すれば認識のロバスト性が向上するか？
RQ3時間的深度ダイナミクスをシーケンスに効果的に符号化する最良の方法は何か？
RQ4行動認識において、埋め込まれた深度は外見的・運動的特徴と比べて、どの程度補完的役割を果たすか？
RQ5推定された深度を動画認識に用いる際、特徴抽出、融合、ネットワークアーキテクチャの最適な設計選択肢は何か？

主な発見

Depth2Actionは、RGB2ストリームまたはC3Dモデルと組み合わせることで、UCF101、HMDB51、ActivityNetで最先端の性能を達成し、強い相乗効果を示した。
Depth2ActionとRGB2ストリーム、IDT特徴を融合した結果、UCF101で93.0%の正確度を達成し、以前のSOTA結果を上回った。
HMDB51では、Depth2ActionとRGB2ストリームの融合により67.1%の正確度を達成し、個々のコンponentや先行手法を上回った。
ActivityNetでは、Depth2ActionとRGB C3Dの融合により71.2%の平均平均精度を達成し、ベースラインモデルに比べ顕著な改善を示した。
Depth2Action単体でもUCF101で72.5%、HMDB51で49.7%の性能を達成しており、融合なしでも有意義な性能を示しており、推定された深度そのものの価値が裏付けられた。
IDTに比べ計算効率が高く、ストレージと計算リソースを著しく削減するため、大規模な展開に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。