QUICK REVIEW

[논문 리뷰] Deep Robust Single Image Depth Estimation Neural Network Using Scene Understanding

Haoyu Ren, Mostafa El‐Khamy|arXiv (Cornell University)|2019. 06. 07.

Advanced Vision and Imaging참고 문헌 25인용 수 26

한 줄 요약

이 논문은 장면 이해를 활용해 이미지를 낮은 또는 높은 깊이 범위 카테고리로 분류한 후 도메인 특화 깊이 네트워크를 적용하여 정확한 추정을 수행하는 이단계적 강건한 단일 이미지 깊이 추정 프레임워크를 제안한다. 다중 작업, 깊이 기반 분리 합성곱 기반 네트워크(DS-SIDENet)를 장면 분류 또는 굵은 깊이 추정과 결합함으로써, NYU, ScanNet 및 KITTI에서 최신 기술 수준의 성능을 달성하였으며, 2018년 로버스트 비전 챌린지에서 1위를 기록하였다.

ABSTRACT

Single image depth estimation (SIDE) plays a crucial role in 3D computer vision. In this paper, we propose a two-stage robust SIDE framework that can perform blind SIDE for both indoor and outdoor scenes. At the first stage, the scene understanding module will categorize the RGB image into different depth-ranges. We introduce two different scene understanding modules based on scene classification and coarse depth estimation respectively. At the second stage, SIDE networks trained by the images of specific depth-range are applied to obtain an accurate depth map. In order to improve the accuracy, we further design a multi-task encoding-decoding SIDE network DS-SIDENet based on depthwise separable convolutions. DS-SIDENet is optimized to minimize both depth classification and depth regression losses. This improves the accuracy compared to a single-task SIDE network. Experimental results demonstrate that training DS-SIDENet on an individual dataset such as NYU achieves competitive performance to the state-of-art methods with much better efficiency. Ours proposed robust SIDE framework also shows good performance for the ScanNet indoor images and KITTI outdoor images simultaneously. It achieves the top performance compared to the Robust Vision Challenge (ROB) 2018 submissions.

연구 동기 및 목표

NYU, ScanNet 또는 KITTI와 같은 독립된 데이터셋에서 훈련된 단일 이미지 깊이 추정(SIDE) 모델의 일반화 부족 문제를 해결한다.
슬라이딩 윈도우 추론이 필요한 큰 백본과 완전 연결층을 갖춘 딥 컨볼루션 네트워크의 비효율성과 유연성 부족 문제를 해결한다.
사전에 장면 유형을 알지 못한 채 실내 및 실외 환경을 모두 처리할 수 있는 블라인드, 도메인 무관 SIDE 프레임워크를 개발한다.
깊이 기반 분리 합성곱과 함께 깊이 분류/회귀를 공동으로 최적화하는 다중 작업, 완전 컨volution 네트워크를 설계하여 정확성과 효율성을 향상시킨다.
다양한 데이터셋에서 강건한 성능을 입증하며, 특히 2018년 로버스트 비전 챌린지에서 최상위 순위를 기록한다.

제안 방법

이중단계 프레임워크를 구현: 먼저 장면 이해 모듈이 장면 분류 또는 굵은 깊이 추정을 통해 입력 이미지를 낮은 또는 높은 깊이 범위로 분류한다.
훈련 데이터의 낮은 깊이 범위 및 높은 깊이 범위 서브셋에 대해 별도의 딥 러닝 네트워크(DS-SIDENet)를 훈련시켜 각각의 깊이 영역에 특화시킨다.
깊이 기반 분리 합성곱을 사용하여 인코딩-디코딩 네트워크로 DS-SIDENet를 설계하여 계산 비용을 줄이고 특징 해상도를 유지한다.
각 픽셀의 양자화된 깊이 레이블을 위한 깊이 분류와 연속적인 깊이 맵을 위한 깊이 회귀를 조합한 다중 작업 손실을 사용하여 DS-SIDENet를 훈련시킨다. 이는 동시에 최적화된다.
추론 시에는 오직 깊이 분류 출력만을 사용하여 효율성을 유지하면서도, 공동 훈련을 통해 특징의 분류 능력을 향상시킨다.
특히 높은 깊이 범위 상황에서 특징 집합을 향상시키기 위해 디코딩 경로에 공간 집합 모듈(SAM)과 확장된 합성곱(SHG)을 도입한다.

실험 결과

연구 질문

RQ1장면 이해를 통한 이중단계 프레임워크가 다양한 실내 및 실외 데이터셋에서 단일 이미지 깊이 추정의 일반화를 향상시킬 수 있는가?
RQ2깊이 분류 및 회귀를 공동으로 최적화하는 다중 작업 학습이 단일 작업 훈련에 비해 네트워크 성능을 어떻게 향상시키는가?
RQ3깊이 기반 분리 합성곱을 사용할 경우 깊이 추정 네트워크의 모델 효율성과 정확도에 어떤 영향을 미치는가?
RQ4粗모양 깊이 추정 기반 장면 이해 모듈의 성능은 깊이 임계값 선택에 얼마나 민감한가?
RQ5블라인드 SIDE 시나리오에서 장면 분류 기반 장면 이해가 굵은 깊이 추정에 비해 더 나은 실제 세계 일반화 성능을 제공하는가?

주요 결과

제안된 이중단계 강건한 SIDE 프레임워크는 2018년 로버스트 비전 챌린지에서 모든 참가자 중 1위를 기록하였으며, 다른 최신 기술 수준의 방법들을 능가하였다.
장면 분류를 사용한 장면 이해가 굵은 깊이 추정에 비해 실제 세계 시나리오에서 더 뛰어난 일반화 성능을 보였으며, 이는 임계값 선택에 민감한 경향을 보였다.
DS-SIDENet 모델은 NYU-Depth-v2 데이터셋에서 경쟁 가능한 성능을 달성하였으며, 훨씬 향상된 효율성으로 최신 기술 수준의 결과를 재현하였다.
세 번째 디코딩 블록에 SAM 모듈을 추가하면 KITTI 검증 성능이 향상되었으며(iRMSE: 7.83, REL: 0.066), 후속 블록에 추가할 경우는 성능 향상 없이 효율성이 떨어졌다.
10m 임계값을 사용할 경우 KITTI와 ScanNet 데이터를 혼합하여 낮은 깊이 범위 DS-SIDENet를 재학습시켰을 때 도메인 이동로 인해 ScanNet 정확도가 떨어졌으며(RMSE: 0.366), 이는 도메인 특화 훈련의 중요성을 확인하였다.
최적 설정을 사용할 경우, 다양한 데이터셋에서 일관된 성능을 유지하였다: ScanNet 테스트 세트의 RMSE/REL은 각각 0.287/0.138이며, KITTI 검증 세트의 iRMSE/REL은 7.83/0.066이었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.