Skip to main content
QUICK REVIEW

[論文レビュー] Viewpoint Invariant 3D Human Pose Estimation with Recurrent Error Feedback

Albert Haque, Boya Peng|arXiv (Cornell University)|Mar 23, 2016
Human Pose and Action Recognition参考文献 53被引用数 9
ひとこと要約

本稿では、トップダウン型の誤差フィードバックを用いた深層畳み込み・再帰的ネットワークを用いて、視点不変な3D人体ポーズ推定モデルを提案する。視点不変な特徴を学習し、自己修正を可能にすることで、極端な視点においても最先端の性能を達成するとともに、正面視点でも優れた結果を維持する。

ABSTRACT

We propose a viewpoint invariant model for 3D human pose estimation from a single depth image. To achieve viewpoint invariance, our deep discriminative model embeds local regions into a learned viewpoint invariant feature space. Formulated as a multi-task learning problem, our model is able to selectively predict partial poses in the presence of noise and occlusion. Our approach leverages a convolutional and recurrent network with a top-down error feedback mechanism to self-correct previous pose estimates in an end-to-end manner. We evaluate our model on a previously published depth dataset and a newly collected human pose dataset containing 100K annotated depth images from extreme viewpoints. Experiments show that our model achieves competitive performance on frontal views while achieving state-of-the-art performance on alternate viewpoints.

研究の動機と目的

  • 既存の手法が性能を低下させる極端な視点角度下での3D人体ポーズ推定の課題に対処すること。
  • ノイズや隠蔽がある状況でも、部分的なポーズ予測を効率的に行うことで、ロバストなポーズ推定を実現すること。
  • 判別的特徴空間を用いて、視点変化に対して不変な深層学習フレームワークを構築すること。
  • 繰り返しのポーズ精錬を可能にする、エンド・ツー・エンドで訓練可能な再帰的アーキテクチャと誤差フィードバックを導入すること。
  • 極端な視点から撮影された10万枚の深度画像から構成される新しい大規模データセットを用いて、性能を評価すること。

提案手法

  • 単一の深度画像を処理し、初期の3Dポーズ推定を行うために、深層畳み込みおよび再帰的ニューラルネットワークを採用する。
  • 局所的な画像領域を、学習された視点不変特徴空間に埋め込むことで、視点依存のバイアスを低減する。
  • ノイズや隠蔽下でも部分的なポーズを効率的に予測できるように、マルチタスク学習としてタスクを定式化する。
  • 直前の予測からの残差誤差を用いて、次の推定を精錬するトップダウン型誤差フィードバック機構を実装する。
  • 精度と視点不変性の両方を最適化するため、モデル全体をエンド・ツー・エンドで訓練する。
  • 訓練および評価に使用するため、極端な視点から撮影された10万枚の深度画像から構成される新規データセットを活用する。

実験結果

リサーチクエスチョン

  • RQ1深層学習モデルは、極端な視点角度において一貫した3D人体ポーズ推定性能を達成できるか?
  • RQ2繰り返しの精錬による誤差低減を実現する再帰的誤差フィードバック機構は、ポーズ推定精度の向上にどの程度効果的か?
  • RQ3視点不変特徴の学習は、非正面視点下での性能低下をどの程度軽減できるか?
  • RQ4隠蔽やセンサーノイズといった困難な条件下で、モデルはどの程度の性能を示すか?
  • RQ5部分的ポーズ予測を効率的に行うマルチタスク学習は、現実世界のシナリオにおけるロバスト性を向上させるか?

主な発見

  • 本モデルは、代替的(非正面)視点において最先端の性能を達成し、先行手法を上回る。
  • 正面視点においても、本モデルは競争力のある性能を維持しており、全視点にわたるロバスト性を示している。
  • 再帰的誤差フィードバック機構は、繰り返しの精錬によって予測誤差を効果的に低減している。
  • 視点不変特徴空間は、多様なカメラ角度にわたる一般化性能を顕著に向上させている。
  • マルチタスク学習の枠組みにおける部分的ポーズ予測の選択的実行のおかげで、ノイズおよび隠蔽に対するモデルのロバスト性が向上している。
  • 極端な視点から撮影された10万枚の深度画像から構成される新規データセットを用いた評価により、本モデルの現実世界における有効性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。