Skip to main content
QUICK REVIEW

[論文レビュー] A simple yet effective baseline for 3d human pose estimation

Julieta Martínez, Rayat Hossain|arXiv (Cornell University)|May 8, 2017
Human Pose and Action Recognition参考文献 48被引用数 98
ひとこと要約

軽量なフィードフォワードネットワークが2d関節位置をカメラ座標系の3dへと持ち上げ、人間3.6Mで最新の成果を達成し、2d検出器の出力を使用しても堅牢である。

ABSTRACT

Following the success of deep convolutional networks, state-of-the-art methods for 3d human pose estimation have focused on deep end-to-end systems that predict 3d joint locations given raw image pixels. Despite their excellent performance, it is often not easy to understand whether their remaining error stems from a limited 2d pose (visual) understanding, or from a failure to map 2d poses into 3-dimensional positions. With the goal of understanding these sources of error, we set out to build a system that given 2d joint locations predicts 3d positions. Much to our surprise, we have found that, with current technology, "lifting" ground truth 2d joint locations to 3d space is a task that can be solved with a remarkably low error rate: a relatively simple deep feed-forward network outperforms the best reported result by about 30\% on Human3.6M, the largest publicly available 3d pose estimation benchmark. Furthermore, training our system on the output of an off-the-shelf state-of-the-art 2d detector (\ie, using images as input) yields state of the art results -- this includes an array of systems that have been trained end-to-end specifically for this task. Our results indicate that a large portion of the error of modern deep 3d pose estimation systems stems from their visual analysis, and suggests directions to further advance the state of the art in 3d human pose estimation.

研究の動機と目的

  • 3d姿勢推定における誤差源の理解を、2d姿勢推定と2d-to-3dリフティングを分離して促進する。
  • シンプルなニューラルネットワークが、2d関節を3d位置へ低誤差で効果的に写像できることを示す。
  • Ground-truth 2d関節と検出器出力を用いて、Human3.6Mで最先端の3d姿勢精度を示す。
  • 視覚的証拠やより複雑なアーキテクチャで拡張可能な、軽量で再現性のあるベースラインを提供する。

提案手法

  • 入力として2d関節位置を用い、カメラ座標系の3d関節位置を予測する。
  • 線形層、バッチ正規化、ドロップアウト、ReLU、残差結合を備えた深いフィードフォワードネットワークを用いる。
  • 学習を安定させるために、ground-truthの3d姿勢をカメラ座標系へ回転/平行移動させる。
  • 入力/出力の標準化と股関節周りでの3d姿勢のゼロ中心化を用いて訓練する。
  • 重みに最大ノルム制約を組み込み、安定性と一般化を向上させる。
  • 2d入力を得るために既製の2d検出器(Stacked Hourglass)を活用し、利用可能な場合は検出器をファインチューニングして結果を改善する。

実験結果

リサーチクエスチョン

  • RQ1単純なニューラルネットワークアーキテクチャを用いて、2d関節検出から3d関節をどれくらいうまく回帰できるか?
  • RQ2座標系の選択(カメラ座標系)が2d-to-3dリフティングの性能に与える影響は?
  • RQ3正則化とアーキテクチャの選択(バッチ正規化、ドロップアウト、残差結合)は、2d-to-3d姿勢推定の精度にどう影響するか?
  • RQ4検出器生成の2d関節を用いた場合、地上truthの2d関節を用いた場合と比べて、2d-to-3dベースラインはどれくらい堅牢か?

主な発見

  • Ground-truth 2d関節で訓練・評価した場合、単純な深いフィードフォワードネットワークはHuman3.6Mで誤差が37.10 mmとなり、従来の2d-to-3d法を約30%上回る。
  • 2d検出を使用した場合でも、SH検出を用いた従来の最高結果(Pavlakos ら)に対して4.4 mmの改善で、エンドツーエンドのピクセル-to-3dアプローチと比較して最先端の性能を達成する;検出器のファインチューニングでその差は9.0 mmに拡大する。
  • 残差接続、バッチ正規化、ドロップアウトは意味のある誤差削減に寄与する(例:残差は約8–10 mmの削減、バッチ正規化/ドロップアウトを外すと誤差が3–8 mm増加)。
  • 3d姿勢予測をカメラ座標系に揃えることが重要である。カメラ座標系がない場合、誤差は100 mmを超え、一定の座標系の重要性を強調する。
  • 本手法は高速で(64のバッチで約3 msのフォワードパス、バッチモードでは約300 fps)軽量(4–5百万パラメータ)であり、迅速な2d検出器と組み合わせるとリアルタイムまたはほぼリアルタイムのデプロイを実現できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。