QUICK REVIEW

[논문 리뷰] Escaping Plato's Cave using Adversarial Training: 3D Shape From Unstructured 2D Image Collections.

Philipp Henzler, Niloy J. Mitra|arXiv (Cornell University)|2018. 11. 28.

Image Processing Techniques and Applications인용 수 26

한 줄 요약

PLATONICGAN은 다양한 카메라 모델 하에서 렌더링된 이미지가 실제 이미지와 구분되지 않도록 하는 적대적 훈련을 통해 비정렬 2D 이미지 컬렉션에서 3D 형상을 복원한다. 이 방법은 가시성 허브, 투과 전용, 방출-흡수 모델과 같은 미분 가능 렌더링 레이어를 사용하여 2D-3D 일致성을 강제하며, 3D 감독 없이도 최신 기술 수준의 성능을 달성하고, 추가적인 3D 감독이 있는 3D-감독 기반 기준을 초월한다.

ABSTRACT

We introduce PLATONICGAN to discover the 3D structure of an object class from an unstructured collection of 2D images, i. e., neither any relation between the images is available nor additional information about the images is known. The key idea is to train a deep neural network to generate 3D shapes which rendered to images are indistinguishable from ground truth images (for a discriminator) under various camera models (i. e., rendering layers) and camera poses. Discriminating 2D images instead of 3D shapes allows tapping into unstructured 2D photo collections instead of relying on curated (e.g., aligned, annotated, etc.) 3D data sets. To establish constraints between 2D image observation and their 3D interpretation, we suggest a family of rendering layers that are effectively differentiable. This family includes visual hull, absorption-only (akin to x-ray), and emissionabsorption. We can successfully reconstruct 3D shapes from unstructured 2D images and extensively evaluate PLATONICGAN on a range of synthetic and real data sets achieving consistent improvements over baseline methods. We can also show that our method with additional 3D supervision further improves result quality and even surpasses the performance of 3D supervised methods.

연구 동기 및 목표

이미지 정렬, 주석, 카메라 포즈 정보 없이 비정렬 2D 이미지 컬렉션에서 3D 형상 구조를 복원하는 것.
정렬되지 않은 사진 컬렉션에서 3D 복원을 가능하게 하기 위해, 실제 이미지와 구분되지 않는 이미지를 합성하는 생성 모델을 훈련하는 것.
3D 형상과 그 2D 관측치 사이의 기하학적 일致성을 강제하는, 기하학적으로 미분 가능한 3D에서 2D로의 렌더링 파이프라인을 수립하는 것.
단지 2D 이미지에 대한 적대적 훈련만으로도 고품질의 3D 복원을 얻을 수 있으며, 이는 명시적인 3D 감독을 갖춘 방법을 초월할 수 있음을 보여주는 것.

제안 방법

생성 적대적 네트워크(GAN) 프레임워크를 훈련시키며, 생성자는 3D 형상을 생성하고, 판별자는 렌더링된 2D 이미지를 실제 이미지와 비교한다.
가시성 허브, 투과 전용(x-ray 유사), 방출-흡수 모델 등을 포함한 다양한 영상 과정을 시뮬레이션하기 위해 미분 가능 렌더링 레이어를 도입한다.
렌더링 레이어는 3D 형상 파라미터에 대해 미분 가능하여, 2D 이미지 공간에서 3D 형상 공간으로의 엔드 투 엔드 백프로파게이션을 가능하게 한다.
생성자는 다양한 카메라 자세와 모델 하에서 렌더링된 이미지가 판별자를 속일 수 있도록 3D 형상을 최적화한다.
이 방법은 이미지 수준의 대응 관계나 카메라 캘리브레이션을 요구하지 않는 비정렬 2D 이미지 컬렉션을 활용한다.
추가적인 3D 감독은 성능 향상을 위한 손실 항목을 통해 통합되며, 이는 비감독 성능을 초월한다.

실험 결과

연구 질문

RQ13D 감독이나 이미지 정렬 없이도 비정렬 2D 이미지 컬렉션에서 3D 형상 복원이 가능할 수 있는가?
RQ2가시성 허브, 투과 전용 등의 미분 가능 렌더링 레이어가 적대적 훈련 중 2D-3D 일치성을 얼마나 효과적으로 강제하는가?
RQ3단지 2D 이미지에 대한 적대적 훈련만으로도 3D 감독 기반 방법을 능가하는 3D 복원을 생성할 수 있는가?
RQ4완전한 3D 주석이 없는 상황에서 약한 3D 감독을 추가로 제공하면 3D 복원 품질이 얼마나 향상되는가?

주요 결과

PLATONICGAN은 렌더링된 이미지에 대한 적대적 훈련만으로도 비정렬 2D 이미지 컬렉션에서 3D 형상을 성공적으로 복원한다.
합성 및 실제 세계 데이터셋 모두에서 베이스라인 방법들보다 일관된 성능 향상을 달성한다.
미분 가능 렌더링 레이어의 사용은 카메라 포즈나 이미지 대응 관계에 대한 명시적 감독 없이도 효과적인 2D-3D 일치 학습을 가능하게 한다.
추가적인 3D 감독이 있으면서도, PLATONICGAN은 3D 감독 기반 방법의 성능을 초월하여, 2D에서의 적대적 훈련 파라다임의 효과성을 입증한다.
다양한 물체 유형과 영상 조건(다양한 카메라 모델 및 자세 포함)에 걸쳐 잘 일반화된다.
제거 분석 결과, 미분 가능 렌더링 레이어가 2D 관측치로부터 기하학적 구조를 학습하는 데 필수적임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.