QUICK REVIEW

[論文レビュー] 3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous Image Data

Benjamin Biggs, Sébastien Ehrhadt|arXiv (Cornell University)|Nov 2, 2020

Human Pose and Action Recognition参考文献 45被引用数 29

ひとこと要約

本稿では、曖昧で単一ビューまたは遮蔽された画像から複数の妥当な3次元人体メッシュを生成するマルチハイポセシス深層学習フレームワークを提案する。ベストオブM損失とハイポセシス再投影損失、正規化フローに基づく量子化戦略を組み合わせることで、予測の幾何的整合性と妥当性が向上し、H36M、その曖昧なバージョン、3DPWにおいて、マルチハイポセシスおよびシングルハイポセシスの両設定で最先端のベースラインを上回る性能を発揮する。

ABSTRACT

We consider the problem of obtaining dense 3D reconstructions of humans from single and partially occluded views. In such cases, the visual evidence is usually insufficient to identify a 3D reconstruction uniquely, so we aim at recovering several plausible reconstructions compatible with the input data. We suggest that ambiguities can be modelled more effectively by parametrizing the possible body shapes and poses via a suitable 3D model, such as SMPL for humans. We propose to learn a multi-hypothesis neural network regressor using a best-of-M loss, where each of the M hypotheses is constrained to lie on a manifold of plausible human poses by means of a generative model. We show that our method outperforms alternative approaches in ambiguous pose recovery on standard benchmarks for 3D humans, and in heavily occluded versions of these benchmarks.

研究の動機と目的

視覚的証拠が不足する単一ビューまたは重度に遮蔽された画像から一意の再構成が困難な3次元人体メッシュを再構成する課題に対処すること。
幾何的整合性と妥当性を保証することで、モノクロナル3次元人体ポーズ推定におけるマルチハイポセシス出力の品質と多様性を向上させること。
勾配の疎らさや情報のないハイポセシスといった標準的なベストオブM学習の限界を克服するため、ハイポセシス再投影損失と柔軟なn量子化出力の導入。
正規化フローを用いた事前分布により、任意のn < Mのハイポセシスを動的にサンプリング可能にし、妥当性を維持すること。

提案手法

バックプロパゲーション中に損失計算に使用するのはM個のハイポセシスの中から最も良い1つのみであるベストオブM損失で訓練されたマルチハイポセシスニューラルネットワークレグレッサーを採用。
すべてのM個の予測された3次元メッシュが入力画像の2次元キーポイントアノテーションに一貫して投影されることを強制する、新規のハイポセシス再投影損失を導入。これにより幾何的整合性が向上。
正規化フローモデルを用いてハイポセシスをフィルタリング・再重み付けし、妥当なポーズのみが出力セットに保持され、優先順位が付けられるようにする。
潜在空間の量子化により、任意のn < M個のハイポセシスを出力可能な新しいn-量子化ベストオブM戦略を提案。これにより柔軟性と適用可能性が向上。
SMPLを3次元ボディモデルとし、キーポイント監視を用いて、標準データセット（H36M、MPI-INF-3DHP、LSP、MPII、COCO）上でエンドツーエンドに訓練。
正規化フローを用いて妥当な人体ポーズの事後分布をモデル化し、ネットワークがより正確で多様な再構成セットを学習できるようにする。

実験結果

リサーチクエスチョン

RQ1曖昧または遮蔽された単一画像から、複数の妥当な3次元人体メッシュ再構成を生成できる深層学習モデルは構築可能か？
RQ2勾配の流れを維持しながら、退化したまたは不適切なハイポセシスを避けるために、ベストオブMトレーニングパラダイムはどのように改善可能か？
RQ3ハイポセシス再投影損失は、最良の1つだけでなく、すべての予測されたハイポセシスに対して幾何的整合性を効果的に強制できるか？
RQ4正規化フローを用いることで、3次元人体メッシュ再構成におけるマルチハイポセシス出力の妥当性と多様性を向上できるか？
RQ5提案されたn-量子化ベストオブMフレームワークにより、n < Mのハイポセシスをアプリケーションに応じて柔軟にサンプリング可能であり、高い性能を維持できるか？

主な発見

提案手法は、H36M、その曖昧なバージョン、3DPWにおいて、SMPL-CVAEおよびSMPL-MDNをすべての指標で上回り、曖昧性のモデリング能力に優れていることを示した。
単一メッシュのMPJPE指標においても、シングルハイポセシス出力に明示的に最適化されていなくても、最先端の性能を達成した。
アブレーションスタディにより、ハイポセシス再投影損失や正規化フロー部品を削除すると顕著な性能低下が生じ、それらの設計的貢献が妥当であることが確認された。
曇った状況下でモデルが平均ポーズ（例：脚が下を向く）に回帰する傾向を軽減し、より多様で妥当な再構成を生成した。
n-量子化ベストオブM戦略により、n < Mのハイポセシスを柔軟にサンプリング可能であり、異なるn値においても性能が安定しており、実用的応用性が向上した。
3DPWはトレーニング時に使用されていなかったが、強い性能を示しており、汎用性の高い事前学習が実現していることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。