QUICK REVIEW

[논문 리뷰] DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction

Qiangeng Xu, Weiyue Wang|arXiv (Cornell University)|2019. 05. 26.

Advanced Vision and Imaging참고 문헌 33인용 수 239

한 줄 요약

DISN은 단일 이미지에서 글로벌 및 로컬 이미지 특징을 결합하여 연속 부호된 거리 필드(SDF)를 예측함으로써 고품질의 세부가 풍부한 3D 메시 재구성을 가능하게 하고 고정 토폴로지가 필요 없다. 이는 최첨단 단일 뷰 방법을 능가하고 다중 뷰 확장을 지원한다.

ABSTRACT

Reconstructing 3D shapes from single-view images has been a long-standing research problem. In this paper, we present DISN, a Deep Implicit Surface Network which can generate a high-quality detail-rich 3D mesh from an 2D image by predicting the underlying signed distance fields. In addition to utilizing global image features, DISN predicts the projected location for each 3D point on the 2D image, and extracts local features from the image feature maps. Combining global and local features significantly improves the accuracy of the signed distance field prediction, especially for the detail-rich areas. To the best of our knowledge, DISN is the first method that constantly captures details such as holes and thin structures present in 3D shapes from single-view images. DISN achieves the state-of-the-art single-view reconstruction performance on a variety of shape categories reconstructed from both synthetic and real images. Code is available at https://github.com/xharlie/DISN The supplementary can be found at https://xharlie.github.io/images/neurips_2019_supp.pdf

연구 동기 및 목표

암시적 표면을 이용한 단일 뷰 3D 재구성을 개선하여 미세한 디테일과 구멍을 포착하도록 동기를 제시한다.
2D 이미지에서 SDF 값을 예측하는 Deep Implicit Surface Network (DISN)를 제안한다.
이미지에 3D 쿼리 포인트를 투영하여 패치 기반 특징을 모으는 로컬 특징 추출 모듈을 통합한다.
ShapeNet Core의 여러 카테고리에서 최첨단 정확성을 보여주고 카메라 포즈와 로컬 특징의 영향을 분석한다.
다중 뷰 재구성과 관련 응용 분야로의 확장을 선보인다.

제안 방법

입력 이미지가 주어졌을 때 3D 포인트에 대한 SDF 값을 예측하고 3D 모양을 signed distance functions (SDF)로 표현한다.
CNN 인코더를 사용하여 전역 이미지 특징을 추출하고 3D 포인트를 이미지 평면에 투영하기 위한 6D 카메라 포즈 표현을 추정하여 로컬 특징 추출을 수행한다.
투영된 이미지 위치의 특징 맵에서 추출된 로컬 특징 스트림을 SDF 예측에 보강하고 이를 전역 특징 및 포인트 특징과 연결한다.
연속 SDF 값에 대한 회귀 손실로 학습하되, 디테일 신뢰도를 높이기 위해 등고면 근처 영역을 강조하는 가중 손실을 포함한다.
조밀한 3D 격자를 샘플링하고 SDF 값을 예측한 뒤 Marching Cubes를 통해 메시를 추출하여 표면을 재구성한다.
디코딩 전에 여러 뷰의 특징을 집계(최대 풀링)를 통해 다중 뷰 재구성으로 확장한다.

실험 결과

연구 질문

RQ1깊은 네트워크가 고정 토폴로지 제약 없이 단일 이미지로 임의의 3D 포인트에 대해 연속 SDF 값을 예측할 수 있는가?
RQ2투영된 패치를 통한 로컬 이미지 특징의 도입이 구멍이나 가느다란 구조와 같은 미세한 디테일의 재구성을 전역 특징만 사용하는 것에 비해 향상시키는가?
RQ3단일 뷰 재구성에서 추정된 카메라 포즈가 SDF 예측과 최종 메시 품질에 어떤 영향을 미치는가?
RQ4이 접근법을 다중 뷰 입력으로 확장하여 디테일과 정확성을 더 향상시킬 수 있는가?
RQ5합성 데이터와 실제 데이터에서 DISN이 표준 3D 재구성 지표 측면에서 최첨단 방법들과 어떻게 비교되는가?

주요 결과

DISN은 ShapeNet Core 카테고리 전반에서 단일 뷰 3D 재구성에서 최첨단 성능을 달성하고, EMD와 IoU 지표에서 baseline보다 우수하다.
투영된 이미지 패치를 통한 로컬 특징 추출 모듈을 도입하면 전역 특징만 사용하는 것에 비해 미세한 디테일의 회복이 크게 향상된다.
카메라 포즈의 6D 회전 표현과 제안된 손실은 안정적인 학습과 정확한 포즈 추정을 촉진하여 재구성 품질 향상에 기여한다.
실제 카메라 포즈는 더 나은 정량적 결과를 제공하지만 추정된 포즈도 작은 재투영 오차로 경쟁력 있는 정성적 재구성을 생성한다.
DISN은 카메라 포즈 추정 오차에 강건함을 보이고, SDF 기반 프레임워크는 고정 체적 3D CNN 접근법보다 더 매끄러운 표면을 산출한다.
이 접근법은 실제 이미지와 온라인 상품 이미지에 일반화되며, 다중 뷰 특징 집계를 통한 추가 개선으로 다중 뷰 재구성도 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.