QUICK REVIEW

[論文レビュー] End-to-end Recovery of Human Shape and Pose

Angjoo Kanazawa, Michael J. Black|arXiv (Cornell University)|Dec 18, 2017

Human Pose and Action Recognition被引用数 60

ひとこと要約

Human Mesh Recovery (HMR) を提示します。これは、再投影損失と因子化した adversarial prior を用いて、単一の RGB 画像から完全な 3D SMPL メッシュを推定するエンドツーエンドのシステムであり、ペア付きの 2D-3D データの有無に関係なく学習可能で、リアルタイムで動作します。

ABSTRACT

We describe Human Mesh Recovery (HMR), an end-to-end framework for reconstructing a full 3D mesh of a human body from a single RGB image. In contrast to most current methods that compute 2D or 3D joint locations, we produce a richer and more useful mesh representation that is parameterized by shape and 3D joint angles. The main objective is to minimize the reprojection loss of keypoints, which allow our model to be trained using images in-the-wild that only have ground truth 2D annotations. However, the reprojection loss alone leaves the model highly under constrained. In this work we address this problem by introducing an adversary trained to tell whether a human body parameter is real or not using a large database of 3D human meshes. We show that HMR can be trained with and without using any paired 2D-to-3D supervision. We do not rely on intermediate 2D keypoint detections and infer 3D pose and shape parameters directly from image pixels. Our model runs in real-time given a bounding box containing the person. We demonstrate our approach on various images in-the-wild and out-perform previous optimization based methods that output 3D meshes and show competitive results on tasks such as 3D joint location estimation and part segmentation.

研究の動機と目的

単一ビューの 3D 人間メッシュ再構成が、疎な 3D 関節だけではない価値を持つ理由を示す。
画像特徴から SMPL の形状と姿勢を直接回帰するエンドツーエンドのフレームワークを開発する。
データ駆動型の adversarial prior により、野外データにおける現実的な 3D グラウンド truth の欠如を解決する。
リアルタイムの性能を実証し、野外画像やセマンティケーションタスクへの適用性を示す。

提案手法

SMPL を用いて身体の形状と姿勢を、形状係数 10 個と姿勢回転 3K でパラメータ化する。
画像特徴から 85D の SMPL 関連パラメータを回帰する反復的誤差フィードバックループを採用する。
形状と姿勢の因子化した adversarial prior を用いた識別器ネットワークを訓練し、人間マニフォールドに出力を正規化する。
再投影損失を最適化し、2D のキーポイントが投影された 3D ジョイントと一致するようにし、2D キーポイント注釈のみからの弱い監督を可能にする。
利用可能な場合には、実際の 3D 損失（ジョイントと SMPL パラメータ）を導入して精度を向上させる。
弱教師あり設定で動作し、対応する 3D 監督なしで訓練できる一方、3D ジョイント推定とセマンティケーション性能は競争力を維持する。

実験結果

リサーチクエスチョン

RQ1単一の RGB 画像を用いて 2D キーポイント検出に依存せずに完全な 3D SMPL メッシュを回復できるか？
RQ2データ駆動型の adversarial prior は、3D グラウンド truth が利用できない場合でも現実的な 3D 人間メッシュを可能にするか？
RQ3エンドツーエンドの SMPL パラメータ回帰は、野外画像での多段階 3D 姿勢推定法と比較してどうか？
RQ4このアプローチはリアルタイム推論が可能で、セグメンテーションなどの下流タスクに有用か？

主な発見

この手法は、画像特徴から直接 SMPL の形状と姿勢を回帰することで完全な 3D 人間メッシュを生成する。
反復的な 3D 回帰とフィードバックは、回復の安定性と精度を向上させる。
因子化された adversarial prior（形状と各ジョイント姿勢の識別器）により出力を人間マニフォールドに沿わせ、3D データのペアなしで学習を可能にする。
このアプローチは、3D ジョイント推定ベンチマークで従来の 2D キーポイントからの SMPL 推定法を上回り、3D ジョイントのみを予測する手法と競争力がある。
モデルは人のバウンディングボックスが与えられた場合リアルタイムで動作し、身体部位セグメンテーションなどの補助タスクをサポートする。
実験では、ペア付きの 3D 監督なしでも高い性能を発揮（HMR アンペアード）することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。