Skip to main content
QUICK REVIEW

[논문 리뷰] Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image

Kailu Wu, Fangfu Liu|arXiv (Cornell University)|2024. 05. 30.
3D Shape Modeling and Analysis인용 수 7
한 줄 요약

Unique3D는 멀티 뷰 확산, 점진적 업스케일링, ISOMER 메쉬 재구성을 사용하여 빠르고 고품질의 텍스처가 있는 3D 메쉬를 달성하는 단일 이미지에서 고충실도 3D 메쉬 파이프라인을 제안합니다.

ABSTRACT

In this work, we introduce Unique3D, a novel image-to-3D framework for efficiently generating high-quality 3D meshes from single-view images, featuring state-of-the-art generation fidelity and strong generalizability. Previous methods based on Score Distillation Sampling (SDS) can produce diversified 3D results by distilling 3D knowledge from large 2D diffusion models, but they usually suffer from long per-case optimization time with inconsistent issues. Recent works address the problem and generate better 3D results either by finetuning a multi-view diffusion model or training a fast feed-forward model. However, they still lack intricate textures and complex geometries due to inconsistency and limited generated resolution. To simultaneously achieve high fidelity, consistency, and efficiency in single image-to-3D, we propose a novel framework Unique3D that includes a multi-view diffusion model with a corresponding normal diffusion model to generate multi-view images with their normal maps, a multi-level upscale process to progressively improve the resolution of generated orthographic multi-views, as well as an instant and consistent mesh reconstruction algorithm called ISOMER, which fully integrates the color and geometric priors into mesh results. Extensive experiments demonstrate that our Unique3D significantly outperforms other image-to-3D baselines in terms of geometric and textural details.

연구 동기 및 목표

  • 한 장의 이미지에서 고품질 3D 메쉬의 효율적 생성을 자극한다.
  • 강한 일반화 가능성으로 고충실도, 텍스처 세부 및 기하학적 정밀도 달성.
  • 확산 기반 다중 뷰 합성, 노멀 맵 및 빠른 메쉬 재구성을 결합한 엔드투엔드 파이프라인 개발.
  • 현실적인 효율성(≤30초) 시연 on wild 단일 뷰 이미지

제안 방법

  • 다중 뷰 확산 모델과 노멀 확산 모델을 사용하여 네 개의 직교 다중 뷰 이미지와 그들의 노멀 맵을 생성.
  • ControlNet 기반 정제 및 초해상도 단계를 이용해 다중 뷰 RGB 이미지와 대응하는 노멀 맵을 고해상도(2048)로 점진적으로 업스케일링.
  • RGB 및 노멀 맵에서 색상 및 기하학적 priors를 통합하는 즉시 일관된 메쉬 재구성 알고리즘 ISOMER로 고품질 메쉬를 재구성.
  • ISOMER에는: (a) 정면/후면 뷰에서의 초기 메쉬 추정, (b) 미분 가능 렌더링 및 이미지 기반 손실을 활용한 거칠은 세부부터 미세 조정, (c) 다중 뷰 불일치 및 텍스처/색 보정 문제를 해결하기 위한 명시적 최적화 대상]
  • research_questions:[

실험 결과

연구 질문

  • RQ1단일 이미지에서 3D 메쉬 파이프라인이 다중 뷰 일관성을 유지하면서 고충실도 텍스처와 복잡한 기하를 달성할 수 있는가?
  • RQ2전용 메쉬 기반 재구성(ISOMER)을 통합하는 것이 단일 뷰 감독하에서 보셀/암시적 방법보다 디테일과 강건성을 개선하는가?
  • RQ3다중 단계 업스케일링 전략은 prohibitive한 계산 없이 고해상도 텍스처와 정확한 노멀을 달성하는 데 효과적인가?

주요 결과

MethodPSNR↑SSIM↑LPIPS↓Clip-Sim↑CD↓Vol. IoU↑F-Score↑
One-2-3-45 [50]13.190.72310.37950.77920.02460.46470.6025
OpenLRM [ 2 ]14.730.77220.32940.86070.02290.44520.5907
SyncDreamer [ 21 ]13.130.72620.40360.78280.02070.42200.5689
Wonder3D [ 3 ]15.660.78980.30060.86120.01840.51990.6513
InstantMesh [ 5 ]15.300.78090.30280.89980.01640.51410.6421
GRM [ 23 ]14.500.76760.33320.88200.01610.47680.6178
CRM [ 4 ]16.450.79650.27500.89360.01560.53790.6697
Ours16.480.80070.26240.90960.01450.55380.6845
  • Unique3D는 실험에서 기존 이미지-대-3D 기초선에 비해 기하학적 및 텍스처 디테일을 크게 향상시킨다.
  • ISOMER는 초당 메쉬 재구성을 가능하게 하며 RTX4090에서 엔드-투-엔드 입력에서 메쉬로의 시간은 30초 이내이다.
  • ISOMER 재구성 과정은 10초 이내에 실행되며, 전체 파이프라인은 단일 이미지에서 3D 결과를 빠르게 달성한다.
  • GSO 기반 평가에서 Our가 PSNR, SSIM, LPIPS, Clip-Sim, CD, Vol. IoU, 및 F-Score에서 베이스라인 대비 최상 또는 근접 최상을 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.