QUICK REVIEW

[論文レビュー] Learning to Estimate 3D Human Pose and Shape from a Single Color Image

Georgios Pavlakos, Luyang Zhu|arXiv (Cornell University)|May 10, 2018

Human Pose and Action Recognition参考文献 52被引用数 22

ひとこと要約

本論文は、単一のカラーマップからSMPLパラメトリックボディモデルを用いて詳細な3次元人体ポーズとボディシェイプを推定するエンドツーエンドのディープラーニングフレームワークを提案する。ConvNetsを用いて2次元キーポイントとマスクからSMPLパrameterを予測し、微分可能レンダリングと3次元ピクセル単位の損失を用いてエンドツーエンドの学習を実現することで、50msの推論時間で最先端の性能を達成した。これは反復的最適化ベースラインの3倍以上高速である。

ABSTRACT

This work addresses the problem of estimating the full body 3D human pose and shape from a single color image. This is a task where iterative optimization-based solutions have typically prevailed, while Convolutional Networks (ConvNets) have suffered because of the lack of training data and their low resolution 3D predictions. Our work aims to bridge this gap and proposes an efficient and effective direct prediction method based on ConvNets. Central part to our approach is the incorporation of a parametric statistical body shape model (SMPL) within our end-to-end framework. This allows us to get very detailed 3D mesh results, while requiring estimation only of a small number of parameters, making it friendly for direct network prediction. Interestingly, we demonstrate that these parameters can be predicted reliably only from 2D keypoints and masks. These are typical outputs of generic 2D human analysis ConvNets, allowing us to relax the massive requirement that images with 3D shape ground truth are available for training. Simultaneously, by maintaining differentiability, at training time we generate the 3D mesh from the estimated parameters and optimize explicitly for the surface using a 3D per-vertex loss. Finally, a differentiable renderer is employed to project the 3D mesh to the image, which enables further refinement of the network, by optimizing for the consistency of the projection with 2D annotations (i.e., 2D keypoints or masks). The proposed approach outperforms previous baselines on this task and offers an attractive solution for direct prediction of 3D shape from a single color image.

研究の動機と目的

単一のモノクロムカラー画像から完全な3次元人体ポーズとシェイプを推定する課題に取り組む。これは従来、遅い反復的最適化手法に支配的であった。
パラメトリックボディモデルを活用することで、ConvNetsによる3次元人体再構築の限界（トレーニングデータ不足、低解像度の3次元予測）を克服する。
トレーニング時に3次元シェイプアノテーションを必要とせず、2次元の監視（キーポイントとマスク）のみで直接3次元予測を可能にする。
2次元アノテーションとの整合性を保つために微分可能レンダリングと3次元ピクセル単位の損失を導入することで、学習の安定性と精度を向上させる。
直接予測が反復的最適化手法（例：SMPLify）の有効な初期化およびアンカーとして機能できることを示す。収束を加速させ、結果を改善する。

提案手法

SMPLパラメトリックボディモデルをエンドツーエンドのディープラーニングフレームワークに統合し、82パラメータ（72個のポーズ + 10個のシェイプ）で3次元人体形状を表現する。
2つの独立したネットワークを訓練する：2次元キーポイントのヒートマップからSMPLポーズパラメータ（θ）を回帰するPosePrior、2次元シルエットからシェイプパラメータ（β）を回帰するShapePrior。
微分可能レンダラを用いて予測された3次元メッシュを再び2次元画像空間に投影し、2次元キーポイントおよびマスクの整合性による監視を可能にする。
予測された3次元メッシュと真値の3次元メッシュの頂点単位の誤差を最小化する3次元ピクセル単位の損失を最適化することで、表面レベルの精度を向上させる。
2次元監視（キーポイント、マスク）と3次元監視（ピクセル単位の損失）の両方を用いてエンドツーエンドのファインチューニングを実施し、3次元シェイプアノテーションが不要な強力な一般化性能を実現する。
予測された3次元ポーズをSMPLify最適化パイプラインのアンカーとして用いることで収束を加速させ、品質を向上させる。ポーズ正則化項E_anchor(θ)を導入する。

実験結果

リサーチクエスチョン

RQ13次元シェイプアノテーションを必要とせず、単一のカラーマップから深層ConvNetが詳細な3次元人体シェイプとポーズを直接予測できるか？
RQ22次元監視（キーポイントとマスク）が、正確な3次元SMPLパラメータを予測するネットワークの学習にどの程度十分か？
RQ3微分可能レンダリングと3次元ピクセル単位の損失を組み込むことで、3次元人体再構築の品質と一般化性能はどの程度向上するか？
RQ4ネットワークからの直接的な3次元予測が、SMPLifyのような反復的最適化手法の有効な初期化として機能できるか？
RQ5反復的最適化を直接的なディープラーニングアプローチに置き換えた場合、精度と推論速度のトレードオフはどのようなものか？

主な発見

提案手法は、3次元人体ポーズとシェイプ推定のベンチマークデータセットで最先端の性能を達成し、直接予測および反復的最適化ベースラインを上回った。
Titan X GPU上で50msで実行可能であり、反復的SMPLify（1～3分/画像）と比較して3桁以上の高速化を達成した。
SMPLifyのアンカーとして使用した場合、セグメンテーション精度（F1スコア：64.62 vs. 63.98）が向上し、実行時間を3倍短縮した。
アンカードSMPLifyバージョンは、LSPテストセットで92.17％のフォアグラウンドセグメンテーション精度と64.62％のF1スコアを達成し、真値の2次元アノテーションを用いたSMPLifyの性能に近づいた。
トレーニング時に3次元ピクセル単位の損失を用いることで、単純なパラメータ回帰よりも標準的な3次元評価指標と高い相関を示した。
3次元シェイプの真値が不要なエンドツーエンドのトレーニングが可能となり、2次元キーポイントとマスクのアノテーションのみに依存するため、データ依存性が顕著に低減された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。