[논문 리뷰] Learning to Reconstruct Shapes from Unseen Classes
GenRe은 단일 이미지에서 3D 형상을 재구성하기 위해 2.5D 깊이, 구면 맵 보정 및 보셀 정제를 구분하는 모듈식, 기하학 인식 파이프라인을 도입하여 보지 못한 객체 범주로 일반화한다.
From a single image, humans are able to perceive the full 3D shape of an object by exploiting learned shape priors from everyday life. Contemporary single-image 3D reconstruction algorithms aim to solve this task in a similar fashion, but often end up with priors that are highly biased by training classes. Here we present an algorithm, Generalizable Reconstruction (GenRe), designed to capture more generic, class-agnostic shape priors. We achieve this with an inference network and training procedure that combine 2.5D representations of visible surfaces (depth and silhouette), spherical shape representations of both visible and non-visible surfaces, and 3D voxel-based representations, in a principled manner that exploits the causal structure of how 3D shapes give rise to 2D images. Experiments demonstrate that GenRe performs well on single-view shape reconstruction, and generalizes to diverse novel objects from categories not seen during training.
연구 동기 및 목표
- 훈련 클래스 너머의 일반화 가능한 단일 이미지 3D 재구성을 목표로 한다.
- 일반화를 향상시키기 위해 기하학적 투영과 형태 재구성을 분리한다.
- 정확한 재구성을 위해 2.5D 표현, 구면 맵, 그리고 보셀 공간을 활용한다.
- 관찰된 클래스와 보지 못한 클래스에서 최첨단 성능을 입증하고 구성 요소의 기여를 분석한다.
제안 방법
- 고정된 기하학적 투영으로 연결된 세 개의 계단식 모듈: 깊이 추정기(2D->2.5D), 구면 맵 투영(2.5D->S), 구면 맵 인페인팅 네트워크(S->S), 그리고 보셀 투영(S->3D)과 그 뒤를 잇는 보셀 정제 네트워크.
- 깊이는 단일 RGB 이미지에서 예측되어 뷰 중심의 2.5D 스케치를 제공하고, 이는 부분 구면 맵으로 투영된다.
- 인페인팅 네트워크가 부분 구면 맵을 완성하여 전체 3D 보셀 표현으로의 투영을 가능하게 한다.
- 보셀 정제 네트워크가 깊이 투영 보셀 추정치와 구면 맵 투영 보셀 추정치를 융합하여 최종 3D 형상을 생성한다.
- 모든 투영은 고정된 기하학적 연산이며, 학습가능한 구성요소는 표면 기하학만 모델하여 일반화를 향상시킨다.
- 학습은 뷰어 중심이며, 입력 이미지 포즈에 맞춘 3D 감독으로 보지 못한 카테고리에 더 잘 일반화되도록 한다.
실험 결과
연구 질문
- RQ1기하학적 투영을 학습과 분리하는 것이 단일 이미지 3D 재구성에서 보지 못한 객체 클래스에 대한 일반화를 개선할 수 있는가?
- RQ22.5D 스케치와 구면 맵 표현이 보셀 공간에서 직접적인 3D 완성보다 더 나은 일반화를 가능하게 하는가?
- RQ3각 모듈이 관찰된(class seen) 대 보지 못한 카테고리에서 재구성 정확도에 어떻게 기여하는가?
- RQ4합성 ShapeNet 데이터에서 실제 이미지(Pix3D 데이터셋)로의 전이에서 접근법이 견고한가?
주요 결과
| 모델 | 관찰된 | 보지 못한 | Bch | Vsl | Rfl | Sfa | Tbl | Phn | Cbn | Spk | Lmp | Dsp | Avg |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| DRC (Tulsiani2017) | .072 | .112 | .100 | .104 | .108 | .133 | .199 | .168 | .164 | .145 | .188 | .142 | |
| AtlasNet (Groueix2018) | .059 | .102 | .100 | .104 | .098 | .130 | .146 | .149 | .158 | .131 | .173 | .127 | |
| DRC (Tulsiani2017) - Object-Centered | .092 | .120 | .109 | .121 | .107 | .129 | .132 | .142 | .141 | .131 | .156 | .129 | |
| MarrNet (Wu2017) | .070 | .107 | .094 | .125 | .090 | .122 | .117 | .125 | .123 | .144 | .149 | .120 | |
| Multi-View (Shin2018) | .065 | .092 | .092 | .102 | .085 | .105 | .110 | .119 | .117 | .142 | .142 | .111 | |
| 3D Completion | .076 | .102 | .099 | .121 | .095 | .109 | .122 | .131 | .126 | .138 | .141 | .118 | |
| GenRe-1step | .063 | .104 | .093 | .114 | .084 | .108 | .121 | .128 | .124 | .126 | .151 | .115 | |
| GenRe-2step | .061 | .098 | .094 | .117 | .084 | .102 | .115 | .125 | .125 | .118 | .118 | .110 | |
| GenRe (Ours) | .064 | .089 | .092 | .112 | .082 | .096 | .107 | .116 | .115 | .124 | .130 | .106 | |
| GenRe-Oracle | .045 | .050 | .048 | .031 | .059 | .057 | .054 | .076 | .077 | .060 | .060 | .057 | |
| GenRe-SphOracle | .034 | .032 | .030 | .021 | .044 | .038 | .037 | .044 | .045 | .031 | .040 | .036 |
- ShapeNet 기반 실험에서 GenRe은 관찰된 클래스와 보지 못한 클래스 모두에 대해 최첨단 재구성 성능을 달성한다.
- 깊이→구면 맵 인페인팅→보셀 투영의 2단계 분해 접근법이 1단계 구면 맵 기반 baselines보다 우수하다.
- 실제 영상(Pix3D)에서 GenRe은 일반적으로 보지 못한 클래스에서 baseline보다 우수하지만 일부 예외가 있다(침대).
- 세 가지 훈련 카테고리에서 학습된 깊이 추정이 새로운 카테고리로 일반화되며 크게 저하되지 않는다.
- 구면 맵 인페인팅은 비가시 표면의 효과적 완성을 가능하게 하고 새로운 형태에 잘 일반화된다.
- 뷰어 중심 감독은 많은 경우 객체 중심 감독보다 보지 못한 카테고리로의 일반화를 더 잘 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.