QUICK REVIEW

[논문 리뷰] OctNetFusion: Learning Depth Fusion from Data

Gernot Riegler, Ali Osman Ulusoy|arXiv (Cornell University)|2017. 04. 04.

Advanced Vision and Imaging참고 문헌 50인용 수 27

한 줄 요약

OctNetFusion은 노이즈가 있는 입력에서 타원형 부호 거리 필드(TSDF)를 예측함으로써 다수의 깊이 맵을 정확하고 완전한 3D 재구성으로 융합하는 딥 3D 컨volution 신경망을 제안한다. 전통적인 부피 기반 융합과는 달리, 이는 대규모 3D 모델 레포지토리와 적응형 옥트리 기반 아키텍처를 활용하여 노이즈를 감소시키고 이상치를 억제하며 가림 영역을 복원한다. 이로 인해 정확도와 세부 정보 유지 측면에서 기존의 바닐라 TSDF 및 TV-L1 융합 방법을 뛰어넘는 성능을 보인다.

ABSTRACT

In this paper, we present a learning based approach to depth fusion, i.e., dense 3D reconstruction from multiple depth images. The most common approach to depth fusion is based on averaging truncated signed distance functions, which was originally proposed by Curless and Levoy in 1996. While this method is simple and provides great results, it is not able to reconstruct (partially) occluded surfaces and requires a large number frames to filter out sensor noise and outliers. Motivated by the availability of large 3D model repositories and recent advances in deep learning, we present a novel 3D CNN architecture that learns to predict an implicit surface representation from the input depth maps. Our learning based method significantly outperforms the traditional volumetric fusion approach in terms of noise reduction and outlier suppression. By learning the structure of real world 3D objects and scenes, our approach is further able to reconstruct occluded regions and to fill in gaps in the reconstruction. We demonstrate that our learning based approach outperforms both vanilla TSDF fusion as well as TV-L1 fusion on the task of volumetric fusion. Further, we demonstrate state-of-the-art 3D shape completion results.

연구 동기 및 목표

기존의 깊이 융합 방법의 한계, 즉 노이즈 처리 능력 부족과 가림 영역 복원 불가능성 문제를 해결하기 위해.
대규모 3D 모델 레포지토리를 활용하여 다수의 깊이 영상에서 3D 재구성을 엔드 투 엔드로 학습할 수 있도록 하기 위해.
3D 재구성을 공동으로 학습하고 최적의 공간 분할(옥트리 구조)을 동시에 학습함으로써 효율성과 정확도를 향상시키는 3D CNN 아키텍처를 개발하기 위해.
다중 시야 깊이 융합 및 단일 시야 3D 형태 완성에서 최신 기술 수준의 성능을 달성하기 위해.
기존 OctNet 모델의 고정된 옥트리 제한을 극복하기 위해 출력 기하학에 맞는 동적이고 학습 기반의 옥트리 구축을 허용하기 위해.

제안 방법

이 방법은 다수의 깊이 영상을 입력으로 받아 학습된 3D 공간 분할에서 타원형 부호 거리 필드(TSDF)를 예측하는 새로운 3D CNN 아키텍처인 OctNetFusion을 사용한다.
입력에 의해 고정되지 않은, 출력 기하학을 최적화하기 위해 학습 과정에서 학습되는 적응형 옥트리 표현을 사용한다.
실제 세계의 물체 구조적 사전 지식을 학습하기 위해 대규모 3D 모델 레포지토리에서 학습함으로써 새로운 카테고리에 일반화할 수 있도록 한다.
표준 알고리즘(예: Marching Cubes)을 사용해 메시화할 수 있는 실수값 TSDF를 예측한다.
옥트리 구조를 통해 희소성을 활용함으로써 최대 256³ 해상도의 고해상도 재구성을 지원함으로써 메모리 비용을 절감한다.
예측된 TSDF와 진짜 값 간의 차이를 최소화하기 위해 재구성 손실을 사용하여 엔드 투 엔드로 학습한다.

실험 결과

연구 질문

RQ1딥 러닝 모델은 노이즈가 많은 다수의 깊이 맵을 효과적으로 융합하여 고품질의 3D 재구성을 만들 수 있을까? 동시에 노이즈와 이상치를 억제할 수 있을까?
RQ23D CNN은 다수의 깊이 시야에서 가려진 또는 손실된 기하학적 구조를 복원할 수 있을까? 기존 융합 방법보다 향상된 성능를 보일 수 있을까?
RQ3적응형 옥트리 기반 네트워크 아키텍처는 고정된 옥트리 접근 방식보다 3D 융합 작업에서 더 우수한 성능를 보일까?
RQ4제안된 방법은 훈련 중에 보지 못한 새로운 물체 카테고리에 일반화될 수 있을까?
RQ5학습 기반 융합 방법은 바닐라 TSDF 및 TV-L1 정규화와 같은 전통적 방법과 비교해 어떻게 성능를 보일까?

주요 결과

ModelNet 데이터셋에서 OctNetFusion은 20개의 시야, 256³ 해상도에서 평균 각도 편차(MAD)를 4.806 mm로 줄였으며, 바닐라 TSDF(31.707 mm)와 TV-L1(5.372 mm)을 모두 뛰어넘었다.
Kinect Object Scans 데이터셋에서 OctNetFusion은 20개의 시야, 256³ 해상도에서 MAD 4.110 mm를 달성하여 양 대조군보다 뚜렷하게 승리했다.
바닐라 TSDF보다 노이즈와 이상치를 더 효과적으로 감소시키며, TV-L1 정규화의 수축 편향을 피한다.
단일 시야 3D 형태 완성에 있어서 OctNetFusion은 Tabletop 데이터셋에서 IoU 0.650을 기록하여 Voxlets(0.585)와 Zheng et al.(0.528)를 모두 뛰어넘었다.
K80 GPU에서 256³ 해상도에서 추론 시간이 10.1초로, TV-L1(24.66초)보다 빠르며 바닐라 TSDF와 경쟁 가능한 성능를 보였다.
정성적 결과에서는 OctNetFusion이 얇은 디테일을 재현하고 큰 구멍을 메우며, 전통적 방법은 이러한 특징를 흐리게 처리하거나 누락하는 경향이 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.