[논문 리뷰] DreamHuman: Animatable 3D Avatars from Text
DreamHuman은 NeRF를 imGHUM 바디 프라이어와 자세 조건형 변형과 결합하여 텍스트 설명에서 포토리얼리스틱하고 애니메이팅 가능한 3D 휴먼 아바타를 생성합니다. 이는 기하학 및 질감 충실도에서 이전의 텍스트-투-3D 방법을 능가하며 추가 학습 없이 동적 포징을 가능하게 합니다.
We present DreamHuman, a method to generate realistic animatable 3D human avatar models solely from textual descriptions. Recent text-to-3D methods have made considerable strides in generation, but are still lacking in important aspects. Control and often spatial resolution remain limited, existing methods produce fixed rather than animated 3D human models, and anthropometric consistency for complex structures like people remains a challenge. DreamHuman connects large text-to-image synthesis models, neural radiance fields, and statistical human body models in a novel modeling and optimization framework. This makes it possible to generate dynamic 3D human avatars with high-quality textures and learned, instance-specific, surface deformations. We demonstrate that our method is capable to generate a wide variety of animatable, realistic 3D human models from text. Our 3D models have diverse appearance, clothing, skin tones and body shapes, and significantly outperform both generic text-to-3D approaches and previous text-based 3D avatar generators in visual fidelity. For more results and animations please check our website at https://dream-human.github.io.
연구 동기 및 목표
- 텍스트 설명에서 제어 가능하고 고충실도 3D 인간 아바타의 필요성을 자극합니다.
- 감독된 텍스트-투-3D 데이터 없이 애니메이팅 가능한 아바타를 생성하는 방법을 개발합니다.
- 인간 바디 프라이어를 통합하여 인체 측정학적 일관성과 자세 변형 가능성을 보장합니다.
- 시맨틱 줌 및 자세 조건형 변형을 통해 질감과 기하학적 세부를 향상시킵니다.
제안 방법
- x를 색상과 밀도로 매핑하는 MLP를 갖는 3D 씬 표현으로 NeRF를 사용합니다.
- 3D 포인트를 imGHUM 시맨틱 공간(거리 d와 표면 코드 s)으로 인코딩하고 이 공간에서 NeRF를 학습합니다.
- 자세 θ와 형태 β로 NeRF를 조건화하여 의복의 자세 의존적 변형을 모델링합니다.
- 밀도는 NeRF 밀도와 imGHUM 기반 밀도 프록시의 최대값으로 정규화되어 팔다리와 세부를 보존합니다.
- 텍스트 주도 최적화를 위한 Score Distillation Sampling을 통한 확산 모델 가이드를 적용합니다.
- 여섯 개의 신체 영역에 렌더링 주의를 집중시켜 디테일을 높이는 시맨틱 줌을 구현합니다.
실험 결과
연구 질문
- RQ1텍스트 설명이 paired 텍스트–3D 데이터 없이 포토리얼리스틱하고 애니메이션 가능한 3D 휴먼 아바타를 낳을 수 있습니까?
- RQ2NeRF 기반 표현에 통계적 신체 프라이어(imGHUM)를 통합하면 자세 간 인체 측정 정확도가 향상됩니까?
- RQ3자세 조건형 비강체 의상 변형이 정적인 모델이나 강체 변형 모델보다 사실감을 높입니까?
- RQ4시맨틱 줌이 신체 영역별 질감 및 기하학 품질에 효과적입니까?
- RQ5DreamHuman은 시각적 충실도와 포즈 유연성 면에서 최첨단 텍스트-투-3D 방법과 비교하여 어떻게 다릅니까?
주요 결과
| 방법 | R-정밀도 | 상위-3 | 상위-5 |
|---|---|---|---|
| DreamFusion | 0.775 | 0.888 | 0.925 |
| Ours | 0.838 | 0.931 | 0.956 |
- DreamHuman은 현실적인 질감과 의복 변형을 갖춘 다양한 애니메이티브 3D 인간을 생성합니다.
- 절개에서, 시맨틱 줌은 얼굴 및 신체 영역의 질감 품질을 크게 향상시킵니다.
- 자세 의존 의상 변형은 아바타 재자세 시 더 자연스러운 스커트 및 의복 동작을 가능하게 합니다.
- DreamFusion과 비교했을 때, DreamHuman은 CLIP 기반 정렬이 더 높고 정성적 평가에서 전체 신체 재구성이 더 좋습니다.
- 정성적 비교에서 DreamHuman은 느슨한 의상과 액세서리에서 AvatarCLIP 대비 더 우수한 기하학 및 질감을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.