QUICK REVIEW

[논문 리뷰] Zero-1-to-3: Zero-shot One Image to 3D Object

Ruoshi Liu, Rundi Wu|arXiv (Cornell University)|2023. 03. 20.

Advanced Vision and Imaging인용 수 21

한 줄 요약

Zero-1-to-3은 단일 이미지에서 제어 가능한 카메라 시점을 가능하게 하도록 사전 학습된 확산 모델을 미세 조정하여 제로샷 신규 시점 합성 및 3D 재구성을 달성하고, 이는 기준선들을 능가합니다.

ABSTRACT

We introduce Zero-1-to-3, a framework for changing the camera viewpoint of an object given just a single RGB image. To perform novel view synthesis in this under-constrained setting, we capitalize on the geometric priors that large-scale diffusion models learn about natural images. Our conditional diffusion model uses a synthetic dataset to learn controls of the relative camera viewpoint, which allow new images to be generated of the same object under a specified camera transformation. Even though it is trained on a synthetic dataset, our model retains a strong zero-shot generalization ability to out-of-distribution datasets as well as in-the-wild images, including impressionist paintings. Our viewpoint-conditioned diffusion approach can further be used for the task of 3D reconstruction from a single image. Qualitative and quantitative experiments show that our method significantly outperforms state-of-the-art single-view 3D reconstruction and novel view synthesis models by leveraging Internet-scale pre-training.

연구 동기 및 목표

대규모 확산 사전정보를 활용하여 단일 2D 이미지에서 3D 정보를 추론한다.
3D 주석 없이 상대 카메라 외부 파라미터에 대한 제어를 학습한다.
현장 이미지 및 분포 밖 이미지에 대한 제로샷 일반화를 달성한다.
신규 시점 합성 및 단일 시점 3D 재구성에서 최첨단 성능을 보여준다.

제안 방법

쌍 이미지와 상대 외부 파라미터를 사용하여 카메라 시점 제어를 학습하도록 사전 학습된 잠재 확산 모델(예: Stable Diffusion)을 미세 조정한다.
입력 뷰와 상대 카메라 변환을 인코딩하는 조건화 c(x,R,T)에 대한 노이즈 제거 예측을 정렬하기 위해 잠재 확산 목표를 사용한다.
정체성 보존을 위해 입력 이미지와 R,T를 결합한 포즈가 있는 CLIP 임베딩과 이미지 자체를 결합한 하이브리드 입력으로 노이즈 제거기를 조건화한다.
신뢰할 수 있는 시점 조건 생성이 가능하도록 제어된 조건화로 classifier-free 가이던스를 채택한다.
Score Jacobian Chaining(SJC)을 확산 사전정보 및 NeRF 유사 체적 렌더링과 통합하여 3D 재구성으로 확장한다.
객체당 다중 시점을 사용하여 Objaverse에서 파생된 쌍(x, x_{R,T})으로 학습하여 강인한 시점 제어를 학습한다.
현장 이미지와 예술작품(예: 인상주의 화)을 포함한 제로샷 일반화를 시연한다.

실험 결과

연구 질문

RQ12D 이미지에서 사전 학습된 확산 모델이 단일 이미지로 제어 가능한 카메라 외부 매개변수를 학습할 수 있는가?
RQ2미세 조정이 보지 못한 물체 및 분포 밖 영상에 대한 제로샷 일반화를 유도하는가?
RQ3시점 조건이 부여된 확산 모델이 신규 시점 합성과 단일 시점 3D 재구성을 얼마나 잘 지원하는가?
RQ4기존의 제로샷 단일 시점 3D 방법들에 대한 질적 및 양적 이점은 무엇인가?
RQ5이 접근 방식이 다양한 물체 기하학과 예술 스타일(예: paintings)에 대처할 수 있는가?

주요 결과

본 방법은 Google Scanned Objects 및 RTMV 벤치마크에서 단일 이미지로부터 신규 시점 합성에 대해 최첨단 결과를 달성한다.
제로샷 3D 재구성은 평가 데이터세트에서 Chamfer Distance 및 IoU에서 기준선 대비 향상된다.
현장 이미지 및 예술 작품(인상파 화 포함)에서도 결과가 유지되어 강한 제로샷 일반화를 보여준다.
질적 결과는 큰 시점 변화에서도 고충실도, 디테일이 풍부한 뷰를 보여주며 DietNeRF, Image Variations, SJC-I 같은 경쟁적 제로샷 기준선들을 능가한다.
이 방식은 인터넷 규모의 사전학습을 활용해 2D 확산 모델로부터 풍부한 기하학적 priors를 추출하고 명시적 3D 감독 없이도 3D 추론을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.