Skip to main content
QUICK REVIEW

[論文レビュー] Towards 3D Human Pose Estimation in the Wild: a Weakly-supervised Approach

Xingyi Zhou, Qixing Huang|arXiv (Cornell University)|Apr 8, 2017
Human Pose and Action Recognition参考文献 29被引用数 69
ひとこと要約

室内の3Dラベル付きデータから野外の2Dラベル付きデータへ3D姿勢の知識を伝達する、エンドツーエンドの弱教師ありフレームワークを提案し、2D姿勢と深度回帰を幾何学的制約と統合して3D予測を正則化する。

ABSTRACT

In this paper, we study the task of 3D human pose estimation in the wild. This task is challenging due to lack of training data, as existing datasets are either in the wild images with 2D pose or in the lab images with 3D pose. We propose a weakly-supervised transfer learning method that uses mixed 2D and 3D labels in a unified deep neutral network that presents two-stage cascaded structure. Our network augments a state-of-the-art 2D pose estimation sub-network with a 3D depth regression sub-network. Unlike previous two stage approaches that train the two sub-networks sequentially and separately, our training is end-to-end and fully exploits the correlation between the 2D pose and depth estimation sub-tasks. The deep features are better learnt through shared representations. In doing so, the 3D pose labels in controlled lab environments are transferred to in the wild images. In addition, we introduce a 3D geometric constraint to regularize the 3D pose prediction, which is effective in the absence of ground truth depth labels. Our method achieves competitive results on both 2D and 3D benchmarks.

研究の動機と目的

  • 限られた野外データにも関わらず、野外での3D姿勢推定を動機づける。
  • 2Dデータと3Dデータの両方を用いて、2D姿勢と深度回帰を共同で学習するエンドツーエンドのネットワークを提案する。
  • 中間の2D画像特徴を活用して3D深度推定を改善する。
  • 2Dラベルのみが利用可能な場合に深度を正則化する3D幾何制約を導入する。
  • 3Dおよび2Dのベンチマークで最先端または競争力のある性能を示し、野外シナリオへの転移を示す。

提案手法

  • 2D姿勢推定モジュールと深度回帰モジュールを備えた2段階のカスケード型ネットワーク。
  • 2Dモジュールは積み重ねられたhourglassアーキテクチャを用いて2D関節ヒートマップを生成する。
  • 深度モジュールは2Dモジュールからの中間特徴マップと2Dヒートマップを取り込み、各関節の深度値を回帰する。
  • 訓練は3Dラベル付きの室内データと2Dラベル付きの野外データの両方を統一されたエンドツーエンドのフレームワークで使用する。
  • 3D深度ラベルが利用できない場合、関節間の骨長比の安定性を強制する3D幾何制約を、事前に定義された骨グループ内の骨長比に基づく微分可能な損失 L_geo として実装する。
  • 総損失は L_2D と L_dep を組み合わせ、L_dep は3Dデータに対してユークリッド損失、2Dデータには幾何損失を用い、3段階の訓練スキームを採用する(Stage 1: 2D前訓練, Stage 2: 3D深度訓練と2D微調整, Stage 3: 幾何制約を適用したジョイント微調整)。

実験結果

リサーチクエスチョン

  • RQ1室内の3Dデータと野外の2Dデータを活用して、統一されたエンドツーエンドのネットワークが野外での3D姿勢推定を効果的に学習できるか?
  • RQ2中間の2D特徴と幾何学的深度正則化損失を組み込むことが、野外での3D姿勢の精度と姿勢の妥当性を改善するか?
  • RQ3提案された弱教師ありアプローチは、標準の3D姿勢ベンチマークにおいて完全監視型や他の野外手法とどう比較されるか?
  • RQ43段階の訓練プロトコルはエンドツーエンドの訓練を安定化させ、深度情報のドメイン間転移を最大化できるか?

主な発見

  • 提案された3D+2D/w geoモデルは、ベースラインと比較してHuman3.6MでMPJPEを著しく改善(例: geo制約なしで64.90 mm対82.44 mm)。
  • 2Dデータと3Dデータの両方を用いた共同訓練は、3Dデータ単独または2Dデータ単独よりも大きな利得を生み、跨ドメイン転移を効果的に示す。
  • 幾何制約は左-右の骨対称性と全体的な幾何学的妥当性を向上させ、野外データのMPII検証およびMPI-INF-3DHPデータセットでも有効である。
  • 2D姿勢精度(PCKh@0.5)は競争力を保ち、深度監視が2D性能を犠牲にすることなく深度モジュールを利することを示している。
  • この手法は、完全な訓練データを使用せずに野外ベンチマーク(MPI-INF-3DHP)で最先端に競���する結果を出し、強い転移能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。