[논문 리뷰] Zero-1-to-3: Zero-shot One Image to 3D Object
Zero-1-to-3은 단일 이미지에서 제어 가능한 카메라 시점을 가능하게 하도록 사전 학습된 확산 모델을 미세 조정하여 제로샷 신규 시점 합성 및 3D 재구성을 달성하고, 이는 기준선들을 능가합니다.
We introduce Zero-1-to-3, a framework for changing the camera viewpoint of an object given just a single RGB image. To perform novel view synthesis in this under-constrained setting, we capitalize on the geometric priors that large-scale diffusion models learn about natural images. Our conditional diffusion model uses a synthetic dataset to learn controls of the relative camera viewpoint, which allow new images to be generated of the same object under a specified camera transformation. Even though it is trained on a synthetic dataset, our model retains a strong zero-shot generalization ability to out-of-distribution datasets as well as in-the-wild images, including impressionist paintings. Our viewpoint-conditioned diffusion approach can further be used for the task of 3D reconstruction from a single image. Qualitative and quantitative experiments show that our method significantly outperforms state-of-the-art single-view 3D reconstruction and novel view synthesis models by leveraging Internet-scale pre-training.
연구 동기 및 목표
- 대규모 확산 사전정보를 활용하여 단일 2D 이미지에서 3D 정보를 추론한다.
- 3D 주석 없이 상대 카메라 외부 파라미터에 대한 제어를 학습한다.
- 현장 이미지 및 분포 밖 이미지에 대한 제로샷 일반화를 달성한다.
- 신규 시점 합성 및 단일 시점 3D 재구성에서 최첨단 성능을 보여준다.
제안 방법
- 쌍 이미지와 상대 외부 파라미터를 사용하여 카메라 시점 제어를 학습하도록 사전 학습된 잠재 확산 모델(예: Stable Diffusion)을 미세 조정한다.
- 입력 뷰와 상대 카메라 변환을 인코딩하는 조건화 c(x,R,T)에 대한 노이즈 제거 예측을 정렬하기 위해 잠재 확산 목표를 사용한다.
- 정체성 보존을 위해 입력 이미지와 R,T를 결합한 포즈가 있는 CLIP 임베딩과 이미지 자체를 결합한 하이브리드 입력으로 노이즈 제거기를 조건화한다.
- 신뢰할 수 있는 시점 조건 생성이 가능하도록 제어된 조건화로 classifier-free 가이던스를 채택한다.
- Score Jacobian Chaining(SJC)을 확산 사전정보 및 NeRF 유사 체적 렌더링과 통합하여 3D 재구성으로 확장한다.
- 객체당 다중 시점을 사용하여 Objaverse에서 파생된 쌍(x, x_{R,T})으로 학습하여 강인한 시점 제어를 학습한다.
- 현장 이미지와 예술작품(예: 인상주의 화)을 포함한 제로샷 일반화를 시연한다.
실험 결과
연구 질문
- RQ12D 이미지에서 사전 학습된 확산 모델이 단일 이미지로 제어 가능한 카메라 외부 매개변수를 학습할 수 있는가?
- RQ2미세 조정이 보지 못한 물체 및 분포 밖 영상에 대한 제로샷 일반화를 유도하는가?
- RQ3시점 조건이 부여된 확산 모델이 신규 시점 합성과 단일 시점 3D 재구성을 얼마나 잘 지원하는가?
- RQ4기존의 제로샷 단일 시점 3D 방법들에 대한 질적 및 양적 이점은 무엇인가?
- RQ5이 접근 방식이 다양한 물체 기하학과 예술 스타일(예: paintings)에 대처할 수 있는가?
주요 결과
- 본 방법은 Google Scanned Objects 및 RTMV 벤치마크에서 단일 이미지로부터 신규 시점 합성에 대해 최첨단 결과를 달성한다.
- 제로샷 3D 재구성은 평가 데이터세트에서 Chamfer Distance 및 IoU에서 기준선 대비 향상된다.
- 현장 이미지 및 예술 작품(인상파 화 포함)에서도 결과가 유지되어 강한 제로샷 일반화를 보여준다.
- 질적 결과는 큰 시점 변화에서도 고충실도, 디테일이 풍부한 뷰를 보여주며 DietNeRF, Image Variations, SJC-I 같은 경쟁적 제로샷 기준선들을 능가한다.
- 이 방식은 인터넷 규모의 사전학습을 활용해 2D 확산 모델로부터 풍부한 기하학적 priors를 추출하고 명시적 3D 감독 없이도 3D 추론을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.