[논문 리뷰] Learning to Generate and Reconstruct 3D Meshes with only 2D Supervision
이 논문은 3D 감독, 자세 애너테이션, 다중 시야를 요구하지 않고 오직 2D 이미지에서 3D 메시 형상을 생성하고 재구성하는 통합적인 딥러닝 프레임워크를 제안한다. 방향성 조명을 사용한 미분 가능 렌더링을 통해 그림자 정보를 활용함으로써 재구성 및 생성 성능을 향상시키며, 볼륨 기반 표현 방식이 아닌 메시 표현 방식을 사용함으로써 기존 3D 감독 방법과 유사한 성능을 달성하면서도 더 시각적으로 현실적인 결과를 도출한다.
We present a unified framework tackling two problems: class-specific 3D reconstruction from a single image, and generation of new 3D shape samples. These tasks have received considerable attention recently; however, existing approaches rely on 3D supervision, annotation of 2D images with keypoints or poses, and/or training with multiple views of each object instance. Our framework is very general: it can be trained in similar settings to these existing approaches, while also supporting weaker supervision scenarios. Importantly, it can be trained purely from 2D images, without ground-truth pose annotations, and with a single view per instance. We employ meshes as an output representation, instead of voxels used in most prior work. This allows us to exploit shading information during training, which previous 2D-supervised methods cannot. Thus, our method can learn to generate and reconstruct concave object classes. We evaluate our approach on synthetic data in various settings, showing that (i) it learns to disentangle shape from pose; (ii) using shading in the loss improves performance; (iii) our model is comparable or superior to state-of-the-art voxel-based approaches on quantitative metrics, while producing results that are visually more pleasing; (iv) it still performs well when given supervision weaker than in prior works.
연구 동기 및 목표
- 오직 애너테이션 없는 2D 이미지, 3D 감독 또는 자세 애너테이션 없이 3D 메시 생성 및 재구성을 해결하는 것.
- 기존 방법의 강한 감독 요구 조건을 완화하기 위해 개체 당 단일 시야 이미지에서 학습할 수 있도록 하는 것.
- 미분 가능 렌더링을 통해 훈련 손실에 그림자 정보를 활용하여 일반화 능력과 형태 세부 사항을 향상시키는 것.
- 메시 기반 표현 방식이 볼륨 기반 표현 방식보다 시각적 품질과 기하학적 정확도 측면에서 뛰어나다는 것을 입증하는 것.
- 단일 2D 이미지에서만 학습 가능하게 분리된 형태와 자세 요소를 종단 간(end-to-end)으로 학습할 수 있는지 보여주는 것.
제안 방법
- 3D 메시 재구성에서 조명이 비친 그림자 있는 RGB 이미지를 생성하는 미분 가능 렌더러를 사용하여 그림자 정보를 통한 역전파를 가능하게 한다.
- 예측된 이미지와 진짜 이미지 간 픽셀 단위의 차이를 손실 함수로 사용하는, 변분 오토인코더 유사 아키텍처를 종단 간으로 훈련시킨다.
- 훈련 중에 방향성 조명을 사용하여 풍부한 그림자 신호를 제공하고, 이를 통해 메시 최적화를 향상시키기 위해 역전파한다.
- 형태와 자세가 분리된 잠재 공간을 학습하여 재구성과 무조건적 생성 모두를 가능하게 한다.
- 볼륨보다 메시를 출력 표현으로 사용함으로써 임의의 표면 방향성과 오목 구조의 더 나은 표현이 가능하다.
- 약한 감독 설정, 즉 단일 시야, 애너테이션 없는 이미지와 자세 레이블 없이도 지원하는 방법이다.

실험 결과
연구 질문
- RQ1딥러닝 모델이 3D 감독이나 자세 애너테이션 없이 오직 2D 이미지만으로 3D 메시 형상을 재구성하고 생성할 수 있는가?
- RQ2방향성 조명에서 유도된 그림자 정보를 훈련 손실에 통합할 경우, 실루엣 기반 감독보다 3D 재구성 및 생성 성능이 향상되는가?
- RQ3오직 2D 감독으로 훈련된 경우, 메시 기반 표현 방식이 볼륨 기반 표현 방식보다 시각적 품질과 기하학적 정확도 측면에서 뛰어나게 되는가?
- RQ4무엇보다도, 분리된 형태와 자세 요소를 단지 쌍방향이 없는 2D 이미지에서 종단 간으로 얼마나 잘 학습할 수 있는가?
- RQ5단일 시야 훈련과 자세 애너테이션 없이 점점 더 약한 감독 설정에서 모델의 성능은 어떻게 되는가?
주요 결과
- 모델은 정량적 지표에서 최신 기준을 달성하며, 그림자 정보를 손실에 포함시킬 경우 깊이 감독으로 훈련된 방법보다도 성능이 뛰어나다.
- 손실에 색상이 있는 방향성 조명을 사용할 경우 흰색 조명이나 실루엣 기반 감독보다 재구성 정확도가 향상되어 그림자 정보의 유용성을 입증한다.
- 훈련 중에 진짜 자세 레이블이 없음에도 불구하고 자세 예측의 정확도가 높고 자세 오차가 낮아 형태와 자세가 분리된 잠재 공간을 효과적으로 학습하고 있음을 보여준다.
- 훈련 및 테스트 시 다중 시야를 사용할 경우 성능이 크게 향상되어 모델이 다중 시야 일致성(consistency)을 효과적으로 활용하고 있음을 보여준다.
- 이전의 볼륨 기반 접근 방식보다 더 매력적인 결과를 도출하며, 특히 오목한 복잡한 표면 세부 사항을 더 잘 포착한다.
- 3D 감독 없이도 그림자 정보를 손실에 포함시킬 경우 최신 기준 방법과 유사한 재구성 품질을 달성하며, 특히 그림자 정보가 손실에 포함된 경우에 뛰어난 성능을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.