QUICK REVIEW

[논문 리뷰] MarrNet: 3D Shape Reconstruction via 2.5D Sketches

Jiajun Wu, Yifan Wang|arXiv (Cornell University)|2017. 11. 08.

3D Shape Modeling and Analysis참고 문헌 3인용 수 234

한 줄 요약

MarrNet은 단일 이미지에서 3D 객체 모양을 재구성합니다. 먼저 2.5D 스케치를 추정(깊이, 법선, 실루엣)한 다음, 이러한 스케치로부터 차별화 가능한 재투영 일관성 손실을 이용해 3D 보셀 형태를 복원합니다.

ABSTRACT

3D object reconstruction from a single image is a highly under-determined problem, requiring strong prior knowledge of plausible 3D shapes. This introduces challenges for learning-based approaches, as 3D object annotations are scarce in real images. Previous work chose to train on synthetic data with ground truth 3D information, but suffered from domain adaptation when tested on real data. In this work, we propose MarrNet, an end-to-end trainable model that sequentially estimates 2.5D sketches and 3D object shape. Our disentangled, two-step formulation has three advantages. First, compared to full 3D shape, 2.5D sketches are much easier to be recovered from a 2D image; models that recover 2.5D sketches are also more likely to transfer from synthetic to real data. Second, for 3D reconstruction from 2.5D sketches, systems can learn purely from synthetic data. This is because we can easily render realistic 2.5D sketches without modeling object appearance variations in real images, including lighting, texture, etc. This further relieves the domain adaptation problem. Third, we derive differentiable projective functions from 3D shape to 2.5D sketches; the framework is therefore end-to-end trainable on real images, requiring no human annotations. Our model achieves state-of-the-art performance on 3D shape reconstruction.

연구 동기 및 목표

강력한 도메인 전달 도전 과제 하에서 단일 이미지로부터 3D 재구성을 동기화한다.
2.5D 스케치 추정과 전체 3D 형태 재구성을 분리하는 두 단계의 엔드-투-엔드 학습 파이프라인을 제안한다.
2.5D 스케치와 3D 형태를 차별화 가능한 재투영 제약으로 정렬하고 실제 이미지에서 자체 감독 미세 조정을 가능하게 한다.
합성 ShapeNet 데이터와 실제 데이터인 PASCAL 3D+ 및 IKEA 데이터 세트에서 3D 재구성 성능이 향상되었음을 시연한다.
2.5D 스케치가 미세 조정 시 전이성과 형태 prior 보존에 도움이 됨을 보여준다.

제안 방법

3가지 구성요소로 MarrNet을 제안한다: 2.5D 스케치 추정기(깊이, 법선, 실루엣), 3D 형태 추정기(보셀 기반), 그리고 재투영 일관성 손실.
2.5D 스케치 추정을 위한 인코더-디코더를 사용하며; 인코더는 ResNet-18; 출력은 256x256 해상도의 깊이, 법선, 실루엣이다.
2.5D 스케치를 128x128x128 보셀 그리드로 매핑하는 인코더-디코더 형태의 3D 형태 추정기로 구성하며 TL 네트워크 및 3D-VAE-GAN 설계 아이디어를 따른다.
보셀화된 3D 형태와 추정된 깊이 및 법선 맵 간의 정합성을 직교 투영 하에서 강제하는 차별화 가능한 재투영 손실을 도입한다.
훈련은 두 단계로 진행된다: 합성 ShapeNet 데이터에서 2.5D 스케치(L2 손실)와 3D 보셀의 교차 엔트로피 손실로 예비 학습; 그런 다음 실제 이미지에서 재투영 일관성 손실을 사용해 미세 조정하되 3D 디코더는 모양 priors를 보존하도록 고정한다.
선택적으로 테스트 중에는 단일 이미지에서의 자기 슈퍼비전 미세 조정을 활성화할 수 있다(최대 40반복, 약 10초).

실험 결과

연구 질문

RQ12.5D 스케치를 사용하는 두 단계 scheme이 직접 RGB-to-보셀 방식에 비해 단일 이미지의 3D 재구성 성능을 향상시킬 수 있는가?
RQ2합성에서 실제 데이터로의 전이가 전체 3D 감독보다 2.5D 스케치 학습이 더 잘 이루어지는가?
RQ3차별화 가능한 2D-3D 재투영 제약이 주석 없이 실제 이미지에서 엔드-투-엔드 미세 조정을 가능하게 하는가?
RQ4미세 조정 시 3D 디코더를 고정하는 것이 학습된 형태 priors를 얼마나 보존하고 현실감을 향상시키는가?
RQ5MarrNet은 ShapeNet과 같은 합성 데이터 및 PASCAL 3D+ 및 IKEA와 같은 실제 데이터에서 질적·정량적으로 어떤 성능을 보이는가?

주요 결과

MarrNet은 ShapeNet 의자에 대해 직접 RGB-to-3D 기준선보다 더 높은 IoU를 달성한다( IoU 0.57 vs 0.52 ).
PASCAL 3D+ 의자에서 MarrNet은 사용자 연구에서 최첨단 DRC보다 우수한 성능을 보인다(74%의 사용자가 MarrNet을 DRC보다 선호; 42%는 ground truth 대비 선호).
실제 데이터 적응에서 디코더를 고정하여 미세 조정하면 형태 priors를 보존하고 무제한 미세 조정보다 더 자세한 3D 재구성을 얻는다.
MarrNet은 실제 이미지에서 3D 형태 재구성에 더 우수하며(PASCAL 3D+, IKEA) 여러 객체 범주를 처리하면서 질적 결과의 일관된 향상을 보인다.
사람 연구에서는 MarrNet이 DRC 대비 우선순위가 높게 나타나고(다양한 데이터셋에서 74%의 비교 선호) 여러 기본 구성에서도 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.