[논문 리뷰] Wonder3D: Single Image to 3D using Cross-Domain Diffusion
Wonder3D는 단일 이미지에서 다중 뷰 노멸/컬러를 교차 도메인 확산 모델로 생성한 다음 이를 3D 표면에 융합하여 고충실도 텍스처 메시에 재구성한다.
In this work, we introduce Wonder3D, a novel method for efficiently generating high-fidelity textured meshes from single-view images.Recent methods based on Score Distillation Sampling (SDS) have shown the potential to recover 3D geometry from 2D diffusion priors, but they typically suffer from time-consuming per-shape optimization and inconsistent geometry. In contrast, certain works directly produce 3D information via fast network inferences, but their results are often of low quality and lack geometric details. To holistically improve the quality, consistency, and efficiency of image-to-3D tasks, we propose a cross-domain diffusion model that generates multi-view normal maps and the corresponding color images. To ensure consistency, we employ a multi-view cross-domain attention mechanism that facilitates information exchange across views and modalities. Lastly, we introduce a geometry-aware normal fusion algorithm that extracts high-quality surfaces from the multi-view 2D representations. Our extensive evaluations demonstrate that our method achieves high-quality reconstruction results, robust generalization, and reasonably good efficiency compared to prior works.
연구 동기 및 목표
- 확산 priors를 활용하여 단일 뷰 3D 재구성의 ill-posed 문제를 해결한다.
- 일관된 뷰 및 도메인(노멀과 색상) 간의 일관성을 개선하여 응집력 있는 3D 표면을 얻는다.
- SDS 기반 방법과 비교하여 효율적인 추론으로 고품질 기하학 및 텍스처를 달성한다.
- 다양한 모양과 스타일에 제로샷으로 일반화할 수 있는 확산 프레임워크를 탐구한다.
제안 방법
- 단일 입력 이미지에서 일관된 노멀 맵과 색상 이미지를 생성하기 위한 다중 뷰 교차 도메인 확산 모델을 제안한다.
- 베이스 priors 재학습 없이 노멀 대 색상으로 확산 모델을 조건화하는 도메인 스위처를 도입한다.
- 기하-시각 일관성을 확보하기 위해 노멀 도메인과 색상 도메인 간 정보를 교환하는 교차 도메인 어텐션을 incorporation한다.
- 제작된 다중 뷰 표현으로부터 고품질 표면을 추출하기 위한 기하 인식 노멀 융합 알고리즘을 개발한다.
- 사전 학습된 2D priors(St able Diffusion)와 호환되는 확산 프레임워크를 활용하여 효율적인 제로샷 일반화를 달성한다.
실험 결과
연구 질문
- RQ1단일 이미지에서 다중 뷰 노멀이와 색상을 함께 생성하는 교차 도메인 확산 모델은 어떻게 작동하는가?
- RQ2교차 도메인 어텐션이 뷰 간 노멀 및 색상 간 일관성을 향상시킬 수 있는가?
- RQ32D 노멀 및 이미지로부터 기하 인식 노멀 융합이 고품질 3D 표면 재구성에 얼마나 효과적인가?
- RQ4SDS 기반 3D 재구성 방법과 비교했을 때 효율성 및 일반화 간의 trade-off는 무엇인가?
주요 결과
- 우리 방법은 GSO 데이터셋에서 테스트된 단일 뷰 재구성 방법들 중 기하학 및 텍스처 품질이 가장 높다(표 1).
- 우리 방법은 베이스라인 대비 새로운 시점 합성 지표(psNR, SSIM, LPIPS)에서 상당히 개선된다(표 2).
- 교차 도메인 어텐션이 있는 교차 도메인 확산은 순차적이거나 비어텐션 변형보다 다중 뷰 일관성이 더 우수하다.
- 기하 인식 노멀 로스 및 이상치 제거 전략은 더 깨끗한 표면과 더 나은 디테일 보존을 제공한다.
- 이 방법은 2분 만에 텍스처 메시를 재구성하므로 비효율적인 모양별 SDS 최적화보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.