Skip to main content
QUICK REVIEW

[논문 리뷰] Consistent123: Improve Consistency for One Image to 3D Object Synthesis

Haohan Weng, Tianyu Yang|arXiv (Cornell University)|2023. 10. 12.
Generative Adversarial Networks and Image Synthesis인용 수 10
한 줄 요약

Consistent123는 cross-view 및 shared self-attention으로 여러 새로운 시점을 동시에 생성하여 이미지-3D 객체 합성에서 시점 간 일관성을 강하게 달성하며, 샘플링 중 점진적 classifier-free 가이던스 전략을 사용합니다.

ABSTRACT

Large image diffusion models enable novel view synthesis with high quality and excellent zero-shot capability. However, such models based on image-to-image translation have no guarantee of view consistency, limiting the performance for downstream tasks like 3D reconstruction and image-to-3D generation. To empower consistency, we propose Consistent123 to synthesize novel views simultaneously by incorporating additional cross-view attention layers and the shared self-attention mechanism. The proposed attention mechanism improves the interaction across all synthesized views, as well as the alignment between the condition view and novel views. In the sampling stage, such architecture supports simultaneously generating an arbitrary number of views while training at a fixed length. We also introduce a progressive classifier-free guidance strategy to achieve the trade-off between texture and geometry for synthesized object views. Qualitative and quantitative experiments show that Consistent123 outperforms baselines in view consistency by a large margin. Furthermore, we demonstrate a significant improvement of Consistent123 on varying downstream tasks, showing its great potential in the 3D generation field. The project page is available at consistent-123.github.io.

연구 동기 및 목표

  • 필요한 조건 이미지에서 기하학적 제약 없이 3D 물체 합성에서 시점 일관성 개선 동기 부여.
  • 교차 시점 상호 작용으로 동시에 다중 시점 생성을 가능하게 하는 아키텍처 제안.
  • 사전 학습된 가중치와 최소한의 학습 가능 매개변수를 활용하여 제로샷 능력 보존.
  • 임의의 시점 수를 허용하고 기하-텍스처 트레이드오프를 최적화하는 샘플링 전략 도입.

제안 방법

  • 합성된 시점 간 상호 작용을 가능하게 하기 위해 디노이징 U-Net의 각 self-attention 층 뒤에 cross-view attention을 도입.
  • 공 conditioning 입력 시점을 더 잘 정렬하도록 모든 시점이 conditioning 입력 시점에 주목하는 shared self-attention 메커니즘 적용.
  • 입력 시점 CLIP 임베딩 및 자세(relative transformations)에 조건화된 입력 시점과 함께 입력 뷰로 연결된 여러 노이즈 시점을 사용해 학습.
  • 샘플링 중 가변 수의 시점을 동시에 생성 가능하도록 하고, 학습은 고정 길이 시점으로 유지하되 임의 길이 시점을 샘플링.
  • denoising 과정에서 점진적으로 가이던스 강도를 줄이는 progressive classifier-free guidance (PCFG) 도입으로 기하학과 텍스처 디테일의 균형.
  • Cross-view attention 가중치를 학습 가능하게 유지하여 제로샷 능력을 보존하고, 기본(pre-trained) Zero123 모델에서 공간 층 초기화.
Figure 1: Given the input view and relative pose sequence, Consistent123 can synthesize consistent novel views concurrently, while Zero123 fails at producing consistent views.
Figure 1: Given the input view and relative pose sequence, Consistent123 can synthesize consistent novel views concurrently, while Zero123 fails at producing consistent views.

실험 결과

연구 질문

  • RQ1동시 다중 시점 확산 생성이 임의의 객체 범주에서 시점 일관성을 향상시킬 수 있는가?
  • RQ2cross-view attention과 shared self-attention이 조건 시점과 합성 시점 간 정렬에 어떤 영향을 미치는가?
  • RQ3임의 길이 시점, PCFG 등의 샘플링 전략이 실제로 기하-텍스처 트레이드오프와 일관성을 최적화하는가?
  • RQ4Consistent123가 3D 재구성 및 이미지-3D 생성 같은 다운스트림 작업에서 벤치마크 대비 어떻게 수행하는가?

주요 결과

DatasetModelPSNR ↑SSIM ↑LPIPS ↓
Objaverse TestsetZero12321.720.920.23
Objaverse TestsetZero123 + SC22.090.920.21
Objaverse TestsetConsistent12324.980.960.14
GSOZero12322.880.920.25
GSOZero123 + SC22.300.930.21
GSOConsistent12327.980.980.11
RTMVZero12315.680.780.36
RTMVZero123 + SC15.880.760.36
RTMVConsistent12318.760.850.25
  • Consistent123는 Zero123 및 다중 조건화에 의한 확률적 조건부를 사용하는 경우보다 시점 일관성을 크게 향상시킨다.
  • Cross-view attention과 shared self-attention을 학습에 도입하면 Objaverse, GSO, RTMV 데이터셋에서 PSNR 및 SSIM이 높아지고 LPIPS가 낮아진다.
  • Ablation 연구에서 cross-view attention이 일관성의 가장 중요한 구성요소이며, shared self-attention과 PCFG가 추가 이점을 제공한다.
  • 샘플링 중 더 많은 시점을 동시에 생성하는 것이 일관성과 품질을 증가시키며 자가회귀 가정과 다르다.
  • PCFG(특히 오목 축소)로 기하-텍스처 균형이 더 잘 달성되며 잡음을 줄이고 디테일은 보존된다.
Figure 2: The overall method of Consistent123. (a) At the training stage, multiple noisy views concatenated (denoted as $\oplus$ ) with the input view are fed into the denoising U-Net simultaneously, conditioned on the CLIP embedding of the input view and the corresponding poses. For sampling, views
Figure 2: The overall method of Consistent123. (a) At the training stage, multiple noisy views concatenated (denoted as $\oplus$ ) with the input view are fed into the denoising U-Net simultaneously, conditioned on the CLIP embedding of the input view and the corresponding poses. For sampling, views

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.