Skip to main content
QUICK REVIEW

[論文レビュー] BodyNet: Volumetric Inference of 3D Human Body Shapes

Gül Varol, Duygu Ceylan|arXiv (Cornell University)|Apr 13, 2018
Human Pose and Action Recognition参考文献 57被引用数 62
ひとこと要約

BodyNet は単一画像から voxel occupancy 表現、マルチビュー投影損失、および中間監督を用いて全体の3Dボリューム型人間ボディ形状を推定することを学習し、SURREAL と Unite the People で最先端の SMPL フィットを実現し、3D ボディ部位セグメンテーションを可能にする。

ABSTRACT

Human shape estimation is an important task for video editing, animation and fashion industry. Predicting 3D human body shape from natural images, however, is highly challenging due to factors such as variation in human bodies, clothing and viewpoint. Prior methods addressing this problem typically attempt to fit parametric body models with certain priors on pose and shape. In this work we argue for an alternative representation and propose BodyNet, a neural network for direct inference of volumetric body shape from a single image. BodyNet is an end-to-end trainable network that benefits from (i) a volumetric 3D loss, (ii) a multi-view re-projection loss, and (iii) intermediate supervision of 2D pose, 2D body part segmentation, and 3D pose. Each of them results in performance improvement as demonstrated by our experiments. To evaluate the method, we fit the SMPL model to our network output and show state-of-the-art results on the SURREAL and Unite the People datasets, outperforming recent approaches. Besides achieving state-of-the-art performance, our method also enables volumetric body-part segmentation.

研究の動機と目的

  • 単一視点の3D人体形状推定に対応する。
  • 3D人体形状のためのボクセルベース表現を導入する。
  • 2Dポーズ、2Dセグメンテーション、3Dポーズの中間監督を伴うエンドツーエンド網ワークを開発する。
  • SURREAL および Unite the People データセットで最先端の SMPL フィット結果を達成する。
  • 形状予測とともにボリューム型の3D ボディ部位セグメンテーションを可能にする。

提案手法

  • 根元関節を中心とした 128x128x128 解像度のボクセル占有グリッドとして3Dボディ形状を予測する。
  • ボクセル毎のバイナリ交差エントロピー損失で訓練し、3Dボディ部位セグメンテーションにもマルチクラス交差エントロピー損失を拡張する。
  • 前方ビューと側方ビューへボクセルグリッドを投影して境界ボクセルを強調することで、マルチビュー再投影損失を用いる(FV および SV 損失)。
  • 3D形状推定を助けるため、2Dポーズ、2Dボディ部位セグメンテーション、3Dポーズの中間監督を備えたマルチタスク学習設定を採用する。
  • 段階的な訓練カリキュラムを用いる:2Dタスクを訓練、次に3Dポーズ、続いて再投影損失を用いた3D形状を訓練し、最後に結合損失でエンドツーエンド微調整を行う。
  • 評価のために、Voxel 出力へはアイソサーフェース抽出と Chamfer 距離に加え関節整列項によって SMPL パラメータを最適化してフィットする。

実験結果

リサーチクエスチョン

  • RQ1ボクセルベースの体積表現はRGB画像から正確な単一視点の3D人体形状を生み出せるのか?
  • RQ2マルチビュー再投影損失を取り入れると、特に四肢の体積再構成の質が改善されるのか?
  • RQ3中間監督信号(2Dポーズ、2Dセグメンテーション、3Dポーズ)は最終的な3D形状推定とSMPLフィットを改善するか?
  • RQ4BodyNet は SURREAL や Unite the People(UP)のような大規模データセットで、従来法と比べてどの程度性能を発揮するのか?
  • RQ5ボリュームネットワークは別個の最適化なしで3Dボディ部位セグメンテーションを生成できるのか?

主な発見

  • BodyNet は、エンドツーエンドでマルチビュー再投影と補助タスクを用いて訓練した場合、SURREAL および Unite the People データセットで最先端の SMPL フィットを達成する。
  • マルチビュー FV および SV シルエット投影を用いると、アブレーション変種より SMPL 表面誤差とボクセル IOU が改善される。
  • エンドツーエンドのマルチタスク訓練は中間監督が全サブネットを正規化し、個別に訓練した場合より3D形状推定が改善される。
  • このアプローチは3Dボディ部位セグメンテーションを可能にし、現代のGPUで各画像につき 0.28s(前景ボクセル)、0.58s(ボディ部位ボクセル)を達成する。
  • β パラメータ回帰ネットワークはボクセルベースの BodyNet を上回らず、平均 SMPL 形状からの偏差をボリューミック予測で学習する利点を示す。
  • voxel 出力へ SMPL をフィットさせると、3Dポーズへの整合性が堅牢になり、2D の手掛かりだけに依存する競合他社よりも3D指標が改善される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。