[論文レビュー] H-NeRF: Neural Radiance Fields for Rendering and Temporal Reconstruction of Humans in Motion
H-NeRF は、ニューラル放射場と暗黙的な人体モデル(imGHUM)を組み合わせ、スパースな視点から動く人間をレンダリングし時間的に再構成する。新規のポーズ・形状・視点への一般化を可能にする。
We present neural radiance fields for rendering and temporal (4D) reconstruction of humans in motion (H-NeRF), as captured by a sparse set of cameras or even from a monocular video. Our approach combines ideas from neural scene representation, novel-view synthesis, and implicit statistical geometric human representations, coupled using novel loss functions. Instead of learning a radiance field with a uniform occupancy prior, we constrain it by a structured implicit human body model, represented using signed distance functions. This allows us to robustly fuse information from sparse views and generalize well beyond the poses or views observed in training. Moreover, we apply geometric constraints to co-learn the structure of the observed subject -- including both body and clothing -- and to regularize the radiance field to geometrically plausible solutions. Extensive experiments on multiple datasets demonstrate the robustness and the accuracy of our approach, its generalization capabilities significantly outside a small training set of poses and views, and statistical extrapolation beyond the observed shape.
研究の動機と目的
- スパースなカメラ視点から動く人間の自由視点映像を実現する動機付け。
- 構造化された暗黙の人体モデル(imGHUM)により幾何学情報を考慮した NeRF の正則化を開発する。
- 基本の人体モデルを超えた衣服や髪のディテールを捉えるため、NeRF と残差 SDF を協同学習する。
- 未知のポーズ・視点・形状への強い一般化を備えた頑健な4D再構成とレンダリングを達成する。
提案手法
- 位置 x および速度 v を (c, σ) に写像する放射場 Fω と、位置 x を Δd に写像する残差 SDF ΔHω を、人体姿勢 θ とルート変換 T に条件付けて協同学習する。
- ジオメトリを導くための canonical-frame の事前情報として imGHUM を用い、フレーム間の時空間対応を提供する。
- SDF からの疑似アルファを NeRF のアルファと混成させて表面近傍の不透明度を正則化することで、NeRF と暗黙の SDF を結合する。
- 動的シーケンスに対して、姿勢コード(β, θ, T)に基づいて NeRF のカラーとジオメトリを条件付け、観測を canonical frame にワープさせる。
- 表面の一貫性と幾何学的妥当性を保証するため、損失 L_blend, L_geom, L_seg、および Eikonal 基づく正則化を導入する。
- 訓練中に姿勢/形状補正 Δβ と Δθ(t) を微調整して前景への適合性を改善する。
実験結果
リサーチクエスチョン
- RQ1暗黙の人体モデルと融合した NeRF ベースの表現は、スパースな視点から動く人間をレンダリング・再構成できるだろうか?
- RQ2NeRF と残差 SDF を共同学習することは、基礎的な NeRF と比較して衣服や髪の幾何学・外観を改善するか?
- RQ3限られた訓練データで新規ポーズ・形状・未知のカメラ視点への一般化はどの程度良いか?
- RQ4姿勢条件付きのジオメトリと外観がレンダリング忠実度と時間的一貫性に与える影響は?
- RQ5スパースなカメラ設定で、静的・動的シーンの双方を頑健に扱えるか?
主な発見
| モデル | データセット | PSNR ↑ | SSIM ↑ | LPIPS ↓ | Ch × 10^{-3} ↓ | NC ↑ | IoU ↑ |
|---|---|---|---|---|---|---|---|
| NeuralBody | RenderPeople | 27.33/23.52 | 0.888/0.827 | 0.117/0.247 | 0.536/0.63 | 0.908/0.892 | 0.864/0.824 |
| GHS3D | 24.7 | 0.829 | 0.236 | 0.79 | 0.887 | 0.81 | |
| PeopleSnapshot | 24.62 | 0.849 | 0.160 | – | – | – | |
| Human3.6M | 24.86 | 0.82 | 0.189 | – | – | – | |
| H-NeRF (ours) | RenderPeople | 28.78/24.31 | 0.913/0.856 | 0.125/0.246 | 0.217/0.274 | 0.950/0.939 | 0.917/0.9 |
| GHS3D | 24.92 | 0.852 | 0.232 | 0.218 | 0.932 | 0.89 | |
| PeopleSnapshot | 26.33 | 0.868 | 0.159 | – | – | – | |
| Human3.6M | 25.01 | 0.83 | 0.170 | – | – | – |
- H-NeRF は、静的シーンにおいて、スパースな視点下で NeRF および IDR と比べて優れた新規視点レンダリングと3Dジオメトリ再構成を提供する。
- 動的な人間に対して、複数のデータセットで画像品質(PSNR/SSIM/LPIPS)と幾何指標(Ch, NC, IoU)の両方で NeuralBody を上回る。
- H-NeRF は未知のポーズ・形状へ一般化し、フレーム数の削減に対して頑健で、4カメラ構成で各カメラあたり最小10の時系列フレームでも動作する能力を持つ。
- 体 latent コードを条件付けし、強力な幾何学的事前情報として imGHUM を活用することで、正確な自由視点レンダリングと4D再構成を実現する。
- 定量的結果は、RenderPeople、GHS3D、PeopleSnapshot、Human3.6M データセットで PSNR/SSIM の改善と、幾何指標の競争力ある、あるいはそれを上回る数値を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。