Skip to main content
QUICK REVIEW

[論文レビュー] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation

Xipeng Chen, Kwan-Yee Lin|arXiv (Cornell University)|Mar 21, 2019
Human Pose and Action Recognition参考文献 43被引用数 42
ひとこと要約

この論文は、スケルトンベースのビュー合成エンコーダ-デコーダを通じて、マルチビューの2Dスケルトンから幾何学感知型の3D姿勢表現を学ぶ弱教師ありフレームワークを提案し、表現の一貫性制約を導入してモノクロ3D姿勢推定の精度を改善する。

ABSTRACT

Recent studies have shown remarkable advances in 3D human pose estimation from monocular images, with the help of large-scale in-door 3D datasets and sophisticated network architectures. However, the generalizability to different environments remains an elusive goal. In this work, we propose a geometry-aware 3D representation for the human pose to address this limitation by using multiple views in a simple auto-encoder model at the training stage and only 2D keypoint information as supervision. A view synthesis framework is proposed to learn the shared 3D representation between viewpoints with synthesizing the human pose from one viewpoint to the other one. Instead of performing a direct transfer in the raw image-level, we propose a skeleton-based encoder-decoder mechanism to distil only pose-related representation in the latent space. A learning-based representation consistency constraint is further introduced to facilitate the robustness of latent 3D representation. Since the learnt representation encodes 3D geometry information, mapping it to 3D pose will be much easier than conventional frameworks that use an image or 2D coordinates as the input of 3D pose estimator. We demonstrate our approach on the task of 3D human pose estimation. Comprehensive experiments on three popular benchmarks show that our model can significantly improve the performance of state-of-the-art methods with simply injecting the representation as a robust 3D prior.

研究の動機と目的

  • 限られた3Dアノテーションで学習することにより、環境とモーションを超えて一般化する幾何学感知表現を強化した頑健な3D姿勢推定を動機づける。
  • 2D監視のみを用いてマルチビューのスケルトンから共有の3D姿勢表現を学習する。
  • 姿勢関連情報を、3D姿勢へより容易に写像される潜在空間へ蒸留する。
  • ビュー合成と潜在空間の一貫性制約を活用することで一般化を改善する。

提案手法

  • 生画像ではなく、マルチビュー画像から得られた2Dスケルトンマップを入力として用いる。
  • 潜在コードGが幾何を表す、ソースビューのスケルトンからターゲットビューのスケルトンを合成するよう、スケルトンベースのエンコーダ−デコーダを訓練する。
  • Gを、ビュー方向を跨ぐ表現の一貫性損失を通じて、意味的に有意義な3D姿勢表現となるよう制約する。
  • 既知のビュー回転の下で潜在空間の一貫性を強制するために、双方向のエンコーダ−デコーダ設定を導入する。
  • 学習した幾何表現Gを3D姿勢回帰器への先验として注入し、Gから3D関節座標への単純な回帰を可能にする。

実験結果

リサーチクエスチョン

  • RQ12Dアノテーションのみを用いて、マルチビュー情報から人間姿勢の幾何学感知型3D表現を学習できるか。
  • RQ2スケルトンベースのビュー合成フレームワークと潜在空間の一貫性制約を組み合わせると、単眼姿勢推定を改善する頑健な3D姿勢表現を生み出すか。
  • RQ3学習した幾何表現は、データセットやプロトコルを横断して最先端の3D姿勢推定手法を強化する有効な先验として機能するか。

主な発見

  • スケルトンベースのビュー合成フレームワークは、先验として注入したときに3D姿勢推定を改善する幾何表現Gを生み出す。
  • 限られた3Dアノテーションで、Gからの3D姿勢回帰を2層の簡単な回帰器で行うと合理的な結果が得られ、Gはプロトコル間のより強力なベースラインを強化できる。
  • 表現の一貫性制約は、ありえない姿勢を減らし、Gの頑健性を向上させる。制約を含めたアブレーションで改善が示されている。
  • 仮想カメラによるデータ拡張と表現の一貫性制約を組み合わせると、ベースラインより実用的な性能向上が観測される。
  • 学習したGはデータセット横断に一般化し、野外MPIIでの定性的結果が手法の実用上の有効性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。