[論文レビュー] InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting
InpaintHumanは、遮蔽されたモノクロ動画から、(1) マルチスケールUVパラメトライズされたカノニカル表現による頑健な遮蔽処理、(2) テキスト反転とControlNet誘導ガイダンスを用いた個人特異性を保持する拡散インペインティングモジュールにより、 Completeでアニメーション可能な3D人間アバターを再構成する。
Reconstructing complete and animatable 3D human avatars from monocular videos remains challenging, particularly under severe occlusions. While 3D Gaussian Splatting has enabled photorealistic human rendering, existing methods struggle with incomplete observations, often producing corrupted geometry and temporal inconsistencies. We present InpaintHuman, a novel method for generating high-fidelity, complete, and animatable avatars from occluded monocular videos. Our approach introduces two key innovations: (i) a multi-scale UV-parameterized representation with hierarchical coarse-to-fine feature interpolation, enabling robust reconstruction of occluded regions while preserving geometric details; and (ii) an identity-preserving diffusion inpainting module that integrates textual inversion with semantic-conditioned guidance for subject-specific, temporally coherent completion. Unlike SDS-based methods, our approach employs direct pixel-level supervision to ensure identity fidelity. Experiments on synthetic benchmarks (PeopleSnapshot, ZJU-MoCap) and real-world scenarios (OcMotion) demonstrate competitive performance with consistent improvements in reconstruction quality across diverse poses and viewpoints.
研究の動機と目的
- モノクロ3D人間アバター再構成における遮蔽への対応。
- 頑健な遮蔽処理のためのポーズに依存しないマルチスケールUV表現の開発。
- unseen領域を完成させるアイデンティティ保-preserving拡散インペインティングパイプラインの導入。
- 個人化先験に基づく前提条件を用いて、フレーム間の時間的一貫性と被写体アイデンティティを確保。
- 合成データと実データの遮蔽データセットでの性能検証。
提案手法
- 遮蔽対策のためのマルチスケールUVパラメータ化カノニカル表現を設計。
- 個人識別情報を保持する拡散インペインティングモジュールを提案。
- テキストインバージョンとControlNetガイダンスを組み合わせ、対象特異的・時系列整合性を確保。
- 時間的一貫性を維持するための個別プリオリ(subject token等)の活用。
- オクルージョンがあるデータセットでの定量評価と ablation studies の実施。
実験結果
リサーチクエスチョン
- RQ1モノクロ3D人間アバター再構成における遮蔽の影響をどの程度軽減できるか。
- RQ2頑健な遮蔽処理のためのポーズ非依存なマルチスケールUV表現は有効か。
- RQ3 unseen領域をアイデンティティを崩さずにインペインティングできるか。
- RQ4個人化プリオリを用いた時間的一貫性と被写体同一性はフレーム間で維持されるか。
- RQ5syntheticおよびreal-worldの遮蔽データセットでのパフォーマンスはどうなるか。
主な発見
| Method | ZJU-MoCap PSNR | ZJU-MoCap SSIM | ZJU-MoCap LPIPS | OcMotion PSNR | OcMotion SSIM | OcMotion LPIPS |
|---|---|---|---|---|---|---|
| HumanNeRF [33] | 20.67 | 0.9509 | – | 9.79 | 0.7203 | 189.1 |
| 3DGS-Avatar [25] | 17.29 | 0.9410 | 63.25 | – | – | – |
| GauHuman [7] | 21.55 | 0.9430 | 55.88 | 15.09 | 0.8525 | 107.1 |
| GaussianAvatar [6] | 18.01 | 0.9512 | 60.33 | – | – | – |
| OccNeRF [35] | 22.40 | 0.9562 | 43.01 | 15.71 | 0.8230 | 82.90 |
| OccGaussian [36] | 23.29 | 0.9482 | 41.93 | – | – | – |
| Wild2Avatar [34] | – | – | – | 14.09 | 0.8484 | 93.21 |
| GTU [14] | 22.89 | 0.9503 | 40.78 | 15.83 | 0.8437 | 83.46 |
| OccFusion [29] | 23.96 | 0.9548 | 32.34 | 18.28 | 0.8805 | 82.42 |
| InpaintHuman (Ours) | 24.65 | 0.9614 | 31.63 | 19.02 | 0.8946 | 81.98 |
- InpaintHumanは遮蔽対応ベースラインと比較してZJU-MoCapおよびOcMotionのベンチマークで競争力があるまたは優れている。
- ZJU-MoCapでは遮蔽対応メソッドの中で最も高い指標を達成。
- OcMotionでは実世界の遮蔽下で信頼性が向上し良好な結果を示す。
- インペインティング品質は、個人化拡散とSubject TokenおよびControlNetガイダンスによる外観整合性・空間的一貫性・時間的安定性を示す。
- ablationsは、マルチスケールUVマップ、テキスト反転、意味的ガイダンスのそれぞれが性能向上に寄与することを確認。
- 総じてInpaintHumanは、直接的なピクセルレベル監視による完全かつアイデンティティ整合のレンダリングを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。