QUICK REVIEW

[논문 리뷰] 3D Shape Induction from 2D Views of Multiple Objects

Matheus Gadelha, Subhransu Maji|arXiv (Cornell University)|2016. 12. 18.

Advanced Vision and Imaging참고 문헌 31인용 수 19

한 줄 요약

이 논문은 3D 애너테이션 또는 시점 정보 없이 다수의 객체의 2D 실루엣에서 3D 형태의 생성 모델을 학습하는 방법인 프로젝티브 GANs(PrGANs)를 제안한다. GAN 프레임워크에 미분 가능한 투영 모듈을 통합함으로써 PrGANs는 분리된 3D 형태와 시점 분포를 추론하며, 실질적인 3D 데이터로 훈련된 3D-GAN과 유사한 성능을 보이며 단일 이미지에서 비지도 3D 재구성 및 새로운 시점 생성을 가능하게 한다.

ABSTRACT

In this paper we investigate the problem of inducing a distribution over three-dimensional structures given two-dimensional views of multiple objects taken from unknown viewpoints. Our approach called "projective generative adversarial networks" (PrGANs) trains a deep generative model of 3D shapes whose projections match the distributions of the input 2D views. The addition of a projection module allows us to infer the underlying 3D shape distribution without using any 3D, viewpoint information, or annotation during the learning phase. We show that our approach produces 3D shapes of comparable quality to GANs trained on 3D data for a number of shape categories including chairs, airplanes, and cars. Experiments also show that the disentangled representation of 2D shapes into geometry and viewpoint leads to a good generative model of 2D shapes. The key advantage is that our model allows us to predict 3D, viewpoint, and generate novel views from an input image in a completely unsupervised manner.

연구 동기 및 목표

3D 애너테이션 또는 시점 레이블 없이 다수의 객체의 2D 실루엣에서 3D 형태에 대한 확률적 분포를 학습하는 것.
단일 훈련 모델을 사용하여 단일 2D 이미지에서 3D 형태와 시점을 비지도로 추론할 수 있도록 하는 것.
의자, 비행기, 자동차와 같은 다양한 토폴로지의 형태 카테고리에 일반화할 수 있는 프레임워크를 개발하는 것.
더 나은 생성 모델링을 위해 2D 형태 표현에서 기하학과 시점을 분리하는 것.
완전히 비지도 방식으로 2D 입력에서 3D 형태 생성 및 새로운 뷰 합성을 가능하게 하는 것.

제안 방법

3D 볼록 격자에서 2D 실루엣으로 렌더링하는 미분 가능한 투영 모듈을 통합한 GAN 프레임워크를 사용하여 3D 형태의 딥 생성 모델을 훈련한다.
투영 모듈은 렌더링 파이프라인을 근사화하며, 2D 이미지에서 3D 볼록 표현으로의 역전파를 가능하게 한다.
3D 형태는 고정 해상도의 3D 볼록 격자 내 이진 점유 격자로 표현되어 인스턴스 간 토폴로지 일관성을 보장한다.
생성자는 임의의 노이즈에서 3D 형태를 생성하고, 투영 모듈은 임의의 시점에서 이를 렌더링하여 적대적 훈련을 위한 합성 2D 이미지를 생성한다.
판별자는 실제 2D 이미지와 생성된 2D 투영 영역을 구분하며, 이로 인해 생성자는 입력 데이터 분포와 일치하는 투영을 갖는 3D 형태를 생성하도록 유도된다.
적대적 손실을 사용하여 엔드 투 엔드로 훈련함으로써 기하학과 시점의 분리된 표현이 암묵적으로 도출된다.

실험 결과

연구 질문

RQ1생성 모델은 3D 애너테이션 또는 시점 레이블 없이 2D 실루엣에서 분리된 3D 형태 분포를 학습할 수 있는가?
RQ2PrGANs가 실질적인 3D 데이터로 훈련된 GAN과 유사한 품질의 3D 형태를 생성할 수 있는가, 특히 2D 뷰만으로 훈련된 경우에도 말이다?
RQ3혼합 데이터로 훈련된 경우, 의자나 비행기와 같은 다양한 토폴로지의 형태 카테고리로 일반화할 수 있는가?
RQ4모델은 단일 2D 이미지에서 비지도 3D 재구성 및 새로운 뷰 생성을 수행할 수 있는가?
RQ5지표 없는 지도 없이 단일 입력 이미지에서 깊이와 시점을 얼마나 정확히 추론할 수 있는가?

주요 결과

PrGANs는 의자, 비행기, 자동차 등 여러 카테고리에서 실질적인 3D 데이터로 훈련된 GAN과 유사한 품질의 3D 형태를 생성한다.
다양한 카테고리의 객체가 혼합된 데이터로 훈련된 경우에도 풍부하고 다양한 3D 형태 분포를 성공적으로 유도한다.
기하학과 시점의 분리된 표현은 단일 2D 이미지에서 정확한 비지도 3D 재구성 및 새로운 뷰 합성을 가능하게 한다.
예측되지 않은 카테고리로의 일반화가 잘 되어 있으며, 인스턴스 간 일관된 토폴로지를 갖는 유의미한 3D 형태를 생성한다.
실루엣 처리로 인해 숨겨진 내부 구조를 포착하는 데에는 제한이 있지만, 전통적인 뷰 기반 방법보다 생성 능력과 일반화 능력에서 뛰어나다.
모델은 알려지지 않은 시점과 객체 정체성에 대해 강건하며, 지도 없이도 3D 형태와 시점 각도의 공동 분포를 학습한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.