[논문 리뷰] Pix2Vex: Image-to-Geometry Reconstruction using a Smooth Differentiable Renderer
Pix2Vex는 새로운 매끄러운 미분 가능 렌더러를 이미지-이미지 변환기와 재구성적 적대 신경망과 쌍으로 연결하여 이미지로부터 3D 기하를 재구성하는 방법을 학습하고, 최소한의 감독과 Ground-truth 3D 모델 없이도 3D 예측을 가능하게 한다.
The long-coveted task of reconstructing 3D geometry from images is still a standing problem. In this paper, we build on the power of neural networks and introduce Pix2Vex, a network trained to convert camera-captured images into 3D geometry. We present a novel differentiable renderer ($DR$) as a forward validation means during training. Our key insight is that $DR$s produce images of a particular appearance, different from typical input images. Hence, we propose adding an image-to-image translation component, converting between these rendering styles. This translation closes the training loop, while allowing to use minimal supervision only, without needing any 3D model as ground truth. Unlike state-of-the-art methods, our $DR$ is $C^\infty$ smooth and thus does not display any discontinuities at occlusions or dis-occlusions. Through our novel training scheme, our network can train on different types of images, where previous work can typically only train on images of a similar appearance to those rendered by a $DR$.
연구 동기 및 목표
- 2D 이미지에서 3D 기하를 재구성하는 것을 ground-truth 3D 모델이나 조명/텍스처 감독 없이 동기 부여한다.
- occlusions를 통해 기울기를 제공하기 위해 C∞ 매끄러운 미분 가능 렌더러를 도입한다.
- 렌더링 도메인 간의 다리를 놓기 위해 이미지-이미지 변환기 체인으로 학습 루프를 닫는다.
- 3D 감독 없이 재구성기를 훈련하기 위해 Reconstructive Adversarial Network (RAN)를 개발한다.
- 합성 데이터와 카메라로 캡처한 데이터에서 단일 뷰 및 다중 뷰 재구성을 시연한다.
제안 방법
- OC를 포함한 디 differentiable한 특성을 보장하기 위해 이웃 삼각면의 부드러운 혼합에 기반한 C∞ 매끄러운 미분 가능 렌더러(SR)를 제안한다.
- 기저 메시와 각 버텍스 업데이트를 사용하여 입력 이미지로부터 3D 버텍스 오프셋을 예측하도록 pix2vex 재구성기를 학습한다.
- SR 출력 도메인과 입력 도메인 사이를 잇는 이미지-이미지 변환기 체인(a2b 및 b2a)을 사용하여 불일치 렌더링 스타일로도 학습이 가능하도록 한다.
- 다수의 하위-RAN 경로를 갖는 Reconstructive Adversarial Network(RAN)으로 변환 구성요소와 재구성기를 자체 감독한다.
- 도메인 간의 순환 일관성과 L1 손실을 활용해 학습을 안정시키고 모드 붕괴를 피한다.
- 가능한 경우 다중 시야 입력으로 학습을 처리하고, 단일 시야 재구성에 대한 전략을 제안한다.
실험 결과
연구 질문
- RQ1매끄러운 미분 가능 렌더러가 occlusion을 통한 3D 재구성에 사용 가능한 기울기를 제공할 수 있는가?
- RQ2RAN 프레임워크를 사용하여 네트워크가 3D 감독 없이 이미지로부터 3D 메시 기하를 예측할 수 있는가?
- RQ3렌더러 출력과 입력 이미지 간의 도메인 번역이 최소한의 감독으로 학습을 가능하게 하는가?
- RQ4이 접근법은 합성(ShapeNet) 데이터와 카메라로 촬영된 이미지에서 얼마나 잘 작동하는가?
- RQ5단일 뷰 대 다중 뷰 입력이 재구성 품질에 미치는 영향은 무엇인가?
주요 결과
- 제안된 SR 렌더러는 occlusion을 가로지르는 미분 가능 기울기를 가능하게 하는 C∞ 매끄러움이다.
- Pix2Vex는 기저 메시에서 시작해 이미지로부터 3D 버텍스 오프셋을 예측하여 명시적 3D 감독 없이 재구성을 얻는다.
- 두 이미지 간 변환체 체인(a2b 및 b2a)은 SR 출력 도메인과 입력 도메인을 연결하여 학습 루프를 닫는다.
- RAN 프레임워크는 대립 목적과 사이클 일관성 손실을 통해 pix2vex와 변환기의 비감독 학습을 가능하게 한다.
- 실험은 ShapeNet에서 다중 시야 학습이 타당한 재구성을 얻는 반면 카메라로 촬영된 신발의 단일 시야 재구성은 견고성과 한계를 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.