QUICK REVIEW

[논문 리뷰] RealFusion: 360° Reconstruction of Any Object from a Single Image

Luke Melas-Kyriazi, Christian Rupprecht|arXiv (Cornell University)|2023. 02. 21.

Advanced Vision and Imaging인용 수 19

한 줄 요약

RealFusion은 diffusion-prior dream-up으로 새로운 시점을 가이드로 삼아 단일 이미지에서 모든 물체의 360° 3D 모델을 재구성하고, InstantNGP로 효율적으로 달성합니다.

ABSTRACT

We consider the problem of reconstructing a full 360° photographic model of an object from a single image of it. We do so by fitting a neural radiance field to the image, but find this problem to be severely ill-posed. We thus take an off-the-self conditional image generator based on diffusion and engineer a prompt that encourages it to "dream up" novel views of the object. Using an approach inspired by DreamFields and DreamFusion, we fuse the given input view, the conditional prior, and other regularizers in a final, consistent reconstruction. We demonstrate state-of-the-art reconstruction results on benchmark images when compared to prior methods for monocular 3D reconstruction of objects. Qualitatively, our reconstructions provide a faithful match of the input view and a plausible extrapolation of its appearance and 3D shape, including to the side of the object not visible in the image.

연구 동기 및 목표

단일 뷰에서 전체 360° 사진 객체를 회복하는 문제의 동기를 제시하고, 단일 이미지 3D 재구성의 ill-posed한 특성을 강조한다.
사전 학습된 2D diffusion 이미지 생성기를 프라이어로 활용하여 그럴듯한 신규 뷰를 환각적으로 생성하는 방법을 제안한다.
효율적인 다중 스케일 방사장(라디언스 필드) 표현과 규제항을 도입하여 사실적인 외관과 타당한 기하를 렌더링한다.
특정 입력 객체에 확산 프라이어를 조건화하기 위한 단일 이미지 텍스트 역전을 도입한다.
카테고리 특화 감독 없이, 실제 환경 이미지와 벤치마크 데이터셋에서 최첨단 재구성 품질을 보여준다.

제안 방법

입력 뷰와 재구성 손실을 통해 일치하도록 최적화된 신경 방사장(RF)으로 외관과 기하를 표현한다.
단일 이미지 텍스트 역전으로 학습된 프롬프트 임베딩에 사전 학습된 diffusion 모델을 조건화하여 객체의 그럴듯한 새로운 뷰를 합성한다.
무작위 샘플링된 신규 시점들에 대한 확산 모델 프라이어와 RF를 정렬하기 위해 Score Distillation Sampling (SDS)을 적용한다.
효율성을 위해 InstantNGP 격자 기반 RF를 사용하는 거친-정교한(coarse-to-fine) 학습 스케줄을 사용한다.
표면 품질 향상을 위한 2D 법선 매끄러움, 텍스처 드롭아웃, 마스크 기반의 L2 항을 포함하고; 이미지 정렬 마스크 손실과 법선 규칙화 항을 수행한다.
고정된 재구성 카메라를 유지하고 각 반복에서 신규 뷰를 샘플링하여 프라이어 일관성을 강화하면서 입력 뷰에 대한 충실도를 유지한다.

Figure 2 : Method diagram. Our method optimizes a neural radiance field using two objectives simultaneously: a reconstruction objective and a prior objective. The reconstruction objective ensures that the radiance field resembles the input image from a specific, fixed view. The prior objective uses

실험 결과

연구 질문

RQ1확산 모델 프라이어가 입력 이미지를 조건화할 때 단일 뷰에서 360° 객체 재구성이 가능한가?
RQ2단일 이미지 텍스트 역전이 재구성 뷰의 품질과 다양성에 어떤 영향을 미치는가?
RQ3한 장의 이미지로 임의의 물체를 재구성할 때 어떤 정규화 항과 학습 전략이 타당한 기하와 외관을 만들어내는가?
RQ4RealFusion이 표준 벤치마크에서 카테고리 특이적 방법이나 다중 뷰 재구성과 어떻게 비교되는가?

주요 결과

RealFusion은 단일 이미지에서 벤치마크 재구성에 대해 이전의 단안 3D 방법과 비교하여 최첨단 정량적 결과를 달성한다.
정량적 평가(F-score)와 외관 유사도(CLIP)가 Shelf-Supervised Mesh Prediction 대비 7개 객체 범주에서 개선되었으며 평균 이득으로 제시된다.
단일 이미지 텍스트 역전은 고품질 재구성에 결정적이며, 없으면 뒷면이 종종 실제 물체가 아닌 일반 카테고리 표본처럼 보인다.
거친-세밀한 학습과 법선 매끄러움 정규화가 표면 품질을 향상시키고 인공물을 줄인다.
Stable Diffusion이 확산 프라이어로서 CLIP 등 대안보다 더 높은 품질의 재구성을 생성한다.
RealFusion은 동일한 입력 뷰에서 여러 개의 그럴듯한 360° 재구성을 생성할 수 있으며, 변형은 주로 가려진 뒷면에서 나타난다.

Figure 3 : Examples demonstrating the level of detail of information captured by the optimized embedding $\langle\textbf{e}\rangle$ . Rows 1-2 show input images and masks. The images are used to optimize $\langle\textbf{e}\rangle$ via our single-image textual inversion process. Rows 3-5 show example

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.