[論文レビュー] A-NeRF: Surface-free Human 3D Pose Refinement via Neural Rendering
A-NeRF は、神経放射場とアーチキテクチャッドスケルトン埋め込みを用いて、自己教師ありのテスト時最適化手法を提案する。単一のキャリブレーションされていないカメラからの入力で、事前3Dモデルや真値ラベルを必要とせず、高精細な3Dボディ形状とポーズ再構築を実現する。純粋な識別的手法を上回り、複数の視点にわたって一般化する。
While deep learning has reshaped the classical motion capture pipeline, generative, analysis-by-synthesis elements are still in use to recover fine details if a high-quality 3D model of the user is available. Unfortunately, obtaining such a model for every user a priori is challenging, time-consuming, and limits the application scenarios. We propose a novel test-time optimization approach for monocular motion capture that learns a volumetric body model of the user in a self-supervised manner. To this end, our approach combines the advantages of neural radiance fields with an articulated skeleton representation. Our proposed skeleton embedding serves as a common reference that links constraints across time, thereby reducing the number of required camera views from traditionally dozens of calibrated cameras, down to a single uncalibrated one. As a starting point, we employ the output of an off-the-shelf model that predicts the 3D skeleton pose. The volumetric body shape and appearance is then learned from scratch, while jointly refining the initial pose estimate. Our approach is self-supervised and does not require any additional ground truth labels for appearance, pose, or 3D shape. We demonstrate that our novel combination of a discriminative pose estimation technique with surface-free analysis-by-synthesis outperforms purely discriminative monocular pose estimation approaches and generalizes well to multiple views.
研究の動機と目的
- 単眼モーションキャプチャにおいて、すべてのユーザーに対して事前に高品質な3Dボディモデルを取得する課題に対処すること。
- 数十台のキャリブレーション済みカメラに依存するのを減らし、単一のキャリブレーションされていないカメラからの正確な3D再構築を可能にすること。
- 自己教師ありの方法で、ボリュメトリックなボディ形状と外観を同時に学習しながら、初期3Dポーズ推定値を精錬すること。
- トレーニング時または推論時において、外観・ポーズ・3D形状の真値ラベルの必要性を排除すること。
- 純粋な識別的単眼ポーズ推定手法よりも一般化性能と性能を向上させること。
提案手法
- 本手法は、神経放射場(NeRF)とアーチキテクチャッドスケルトン表現を組み合わせ、3Dボディ形状・外観・ポーズを同時に最適化する。
- 一貫性を確保し、複数のカメラビューへの依存度を低下させるために、共有時間的参照としてのスケルトン埋め込みを導入する。
- オフザシェルフの3Dポーズ推定ネットワーク出力を出発点とし、テスト時最適化によってそれを精錬する。
- ボリュメトリックなボディ形状と外観は、単一の単眼動画入力と自己教師ありの監視のみを用いて、完全にゼロから学習する。
- 最適化は微分可能に実行され、単一のキャリブレーションされていないカメラを用いて、3D幾何構造とポーズのエンドツーエンド精錬を可能にする。
- 明示的な表面監視や明示的な3Dモデル監視を必要とせず、分析による合成の原則を活用する。
実験結果
リサーチクエスチョン
- RQ1事前3Dモデルがなくても、単一のキャリブレーションされていないカメラで高精細な3D人間ボディ再構築が可能か?
- RQ2自己教師ありアプローチは、単眼動画から3Dポーズとボリュメトリックなボディ形状を同時に精錬できるか?
- RQ3スケルトン埋め込みは、複数のキャリブレーション済みビューの必要性を低減するための安定した時間的参照として機能できるか?
- RQ4識別的ポーズ推定と表面フリーな分析による合成を組み合わせることで、純粋な識別的手法を上回る性能が得られるか?
- RQ5明示的なマルチビュー監視がなくても、複数のビューにわたって一般化できるか?
主な発見
- 本手法は、真値3D形状や外観ラベルを一切必要とせず、単眼3D人間ポーズ推定で最先端の性能を達成した。
- 数十台のキャリブレーション済みカメラの必要性を低減し、単一のキャリブレーションされていないカメラからの詳細な3Dボディ形状とポーズの再構築に成功した。
- スケルトン埋め込みの使用により、時間的整合性の高いモデリングが可能になり、シーケンス全体での再構築忠実度が向上した。
- マルチビューへの一般化が良好であり、単一ビュー設定を超えた頑健性を示した。
- 自己教師ありトレーニングフレームワークにより、追加の監視なしに形状・外観・ポーズの共同最適化が可能になった。
- 3Dキーポイント精度と幾何的整合性の観点で、純粋な識別的単眼ポーズ推定ベースラインを上回った。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。