QUICK REVIEW

[논문 리뷰] DPSNet: End-to-end Deep Plane Sweep Stereo

Sunghoon Im, Hae‐Gon Jeon|arXiv (Cornell University)|2019. 05. 02.

Advanced Vision and Imaging인용 수 83

한 줄 요약

DPSNet은 differentiable warping과 context-aware cost aggregation으로 플레인-스윕 스테레오를 모델링하는 엔드-투-엔드 CNN으로, 비구조화된 다중 뷰 이미지로부터의 고밀도 깊이 재구성에서 최첨단 성능을 달성한다.

ABSTRACT

Multiview stereo aims to reconstruct scene depth from images acquired by a camera under arbitrary motion. Recent methods address this problem through deep learning, which can utilize semantic cues to deal with challenges such as textureless and reflective regions. In this paper, we present a convolutional neural network called DPSNet (Deep Plane Sweep Network) whose design is inspired by best practices of traditional geometry-based approaches for dense depth reconstruction. Rather than directly estimating depth and/or optical flow correspondence from image pairs as done in many previous deep learning methods, DPSNet takes a plane sweep approach that involves building a cost volume from deep features using the plane sweep algorithm, regularizing the cost volume via a context-aware cost aggregation, and regressing the dense depth map from the cost volume. The cost volume is constructed using a differentiable warping process that allows for end-to-end training of the network. Through the effective incorporation of conventional multiview stereo concepts within a deep learning framework, DPSNet achieves state-of-the-art reconstruction results on a variety of challenging datasets.

연구 동기 및 목표

질감이 없고 반사된 영역을 고려하여 비구조적 다중 뷰 이미지에서의 견고한 밀도 깊이 재구성을 동기화한다.
사후에 설계된 손으로 만든 비용에 의존하기보다 평면-스윕 스테레오를 학습하는 엔드-투-엔드 신경망을 개발한다.
학습 가능한 비용 집계와 결합된 differentiable plane-sweep 코스트 볼륨 구성을 통합하여 강건성을 향상시킨다.
여러 도전적인 데이터셋에 걸쳐 최첨단 깊이 재구성을 입증하고 ablation 연구를 분석한다.
CNN 프레임워크 내에 전통적인 다중 뷰 스테레오 개념을 도입하는 것이 엔드-투-엔드 학습의 이점을 가져온다는 것을 보여준다.

제안 방법

공유된 CNN과 공간 피라미드 풀링 및 이후의 2D 합성곱을 사용하여 기준 이미지와 타깃 이미지로부터 다중 스케일 특징을 추출하고 32채널 특징 맵을 생성한다.
미분 가능 워핑 모듈(공간 변환기 기반)을 통해 L개의 깊이 평면에 걸쳐 타깃 뷰 특징을 기준 프레임으로 워핑하고, 워핑된 특징을 기준 특징과 연결(concatenate)하여 4D 볼륨을 구성한다.
확장된 합성곱을 활용하고 기준 이미지 특징을 사용하는 컨텍스트 인식 비용 집계 네트워크로 코스트 볼륨을 정규화하여 각 코스트 슬라이스를 정제한다.
깊이를 L개의 평면에 대한 다중 레이블 분류로 간주하여 밀도 깊이를 추정하고, 각 평면의 비용에 소프트맥스를 적용한 뒤, 깊이는 평면 지수의 가중 합으로 계산하되 L과 d_min으로 스케일링한다.
초기 코스트-볼륨 깊이와 정제된 깊이에 대해 SmoothL1 손실로 학습하고, 고정 가중치(lambda = 0.7, 초기 비용 깊이에 대해)를 부여하여 기여도를 조절한다.
테스트 시에는 다중 뷰의 코스트 볼륨을 뷰별로 평균화하여 최종 깊이 맵을 엔드-투-엔드로 생성한다.

실험 결과

연구 질문

RQ1엔드투엔드 학습의 플레인-스윕 기하가 비엔드투엔드 플레인-스윕 방법에 비해 다중 뷰 이미지에서의 밀도 깊이 재구성을 향상시킬 수 있는가?
RQ2컨텍스트 인식 코스트 집계가 특히 텍스처가 부족하거나 균질한 영역에서 깊이 정확도를 향상시키는가?
RQ3입력 뷰의 수가 깊이 품질에 어떤 영향을 미치는가, 그리고 계산과의 트레이드오프는 무엇인가?
RQ4이 프레임워크에서 특징 연결(concatenation)이 전통적인 절대 차이 기반 비용보다 더 우수한가?
RQ5미세조정 후 이 방법이 다양한 카메라 내부 파라미터/외부 파라미터 및 KITTI와 같은 보정 스테레오 설정에 적응할 수 있는가?

주요 결과

DPSNet는 여러 표준 다중 뷰 데이터셋에서 최첨단 결과를 달성하여 많은 지표에서 DeMoN, DeepMVS, COLMAP 기반선보다 우수하다.
코스트 집계 모듈이 잡음이 많은 코스트 슬라이스를 정규화하는 데 도움을 주어 균질한 영역과 물체 경계에서 깊이를 효과적으로 복원한다.
코스트 볼륨 구성에서 특징 연결이 절대 차이 사용보다 더 우수하여 더 풍부한 3D 장면 정보를 학습할 수 있다.
확장된 합성곱을 갖춘 컨텍스트 지도 기반 비용 집계 네트워크가 비집계 기반선과 스택드-하우스그래스 대안보다 깊이 정확도를 크게 향상시킨다.
역깊이 평면 샘플링과 더 많은 입력 뷰(약 7개까지)를 사용하면 결과가 개선되지만 그 이상은 수익이 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.