QUICK REVIEW

[논문 리뷰] SAFENet: Self-Supervised Monocular Depth Estimation with Semantic-Aware Feature Extraction

Jaehoon Choi, Dongki Jung|arXiv (Cornell University)|2020. 10. 06.

Advanced Vision and Imaging참고 문헌 61인용 수 32

한 줄 요약

SAFENet은 의미 인식을 통한 깊이 특징을 다중 작업 학습으로 통합하여 자기지도 단일 카메라 심도 추정의 정확도를 높이고, KITTI에서 최첨단 성능과 악조건에서의 일반화 능력을 달성합니다.

ABSTRACT

Self-supervised monocular depth estimation has emerged as a promising method because it does not require groundtruth depth maps during training. As an alternative for the groundtruth depth map, the photometric loss enables to provide self-supervision on depth prediction by matching the input image frames. However, the photometric loss causes various problems, resulting in less accurate depth values compared with supervised approaches. In this paper, we propose SAFENet that is designed to leverage semantic information to overcome the limitations of the photometric loss. Our key idea is to exploit semantic-aware depth features that integrate the semantic and geometric knowledge. Therefore, we introduce multi-task learning schemes to incorporate semantic-awareness into the representation of depth features. Experiments on KITTI dataset demonstrate that our methods compete or even outperform the state-of-the-art methods. Furthermore, extensive experiments on different datasets show its better generalization ability and robustness to various conditions, such as low-light or adverse weather.

연구 동기 및 목표

그라운드 트루스 깊이 없이 의미 정보를 활용하여 깊이 추정을 개선하는 것을 목표로 한다.
다중 작업 학습을 통해 의미 인식 깊이 특징을 개발하여 광측정 손실의 한계를 완화한다.
깊이와 세분화 작업 간 간섭을 줄이기 위해 작업 특화 및 공유 구성요소를 갖춘 인코더를 설계한다.
깊이 특징에 의미 친화성을 주입하는 교차 작업 정보 경로를 제공한다.
저조도 및 악조건에서의 강건성과 일반화를 보여준다.

제안 방법

공유 인코더와 깊이 및 세분화 작업용 두 디코더로 구성된 다중 작업 네트워크를 제안한다.
dedicated 모듈(CPU와 APU)을 통해 깊이 표현과 의미 정보를 결합하여 의미 인식 깊이 특징을 사용한다.
세분화 특징에서 학습된 의미 친화도 매트릭스(APU)를 통해 의미 친화도 전파를 활용하여 깊이 특징을 안내한다.
작업 특화 잔차 어댑터 및 SE 블록을 적용하여 작업 공유 및 작업 특이 특성 학습이 간섭 없이 이루어지도록 한다.
깊이 및 세분화 디코더 간의 제어 가능한 특징 공유를 위해 1x1 컨볼루션으로 교차 작업 정보를 융합한다.
자기지도 광측정 손실에 깊이 스무스니스 손실 및 의미 세분화 손실을 더해 엔드 투 엔드 최적화를 가능하게 한다.

실험 결과

연구 질문

RQ1의미 인식 특징 추출이 광측정 손실만 사용하는 자기지도 단일 카메라 심도 추정보다 성능을 향상시키는가?
RQ2깊이와 의미 세분화 간의 유용한 표현을 공유하면서 작업 간 간섭을 최소화하도록 다중 작업 학습을 어떻게 구성할 수 있는가?
RQ3의미 인식 깊이 특징은 어두움, 안개, 비와 같은 도전적 조건에서 깊이 단독 방법보다 더 잘 일반화되는가?
RQ4KITTI에서의 깊이 정확도에 대한 의미 감독의 영향과 가상 KITTI, nuScenes와 같은 교차 데이터셋 일반화에 미치는 영향은 무엇인가?

주요 결과

SAFENet은 그라운드 트루스 깊이 없이 자기지도 단일 카메라 심도 추정에서 KITTI의 최첨단 결과를 달성한다.
SAFENet은 1024x320 입력에서 Abs Rel 0.106, Sq Rel 0.743, RMSE 4.489, delta<1.25 0.884를 달성하여 KITTI에서 여러 기준선을 능가한다.
의미 인식 깊이 특징은 SE 모듈이 있는 Monodepth2에 비해 악조건(안개, 비) 하에서 강건성을 향상시킨다.
데이터셋과 조건에 걸쳐 SAFENet은 조명이나 날씨 변화로 RGB 신호가 저하될 때도 일반화 능력을 유지하고 깊이 품질을 유지한다.
카울레이션 연구는 CPU(깊이-의미 특징 공유)와 APU(친화도 전파) 모두가 이익에 기여하며 전체 모듈식 공유가 최상의 결과를 낳음을 시사한다.
클래스별 분석은 대부분의 의미 범주에서 깊이 정확도가 개선되며 하늘을 제외한 물체의 움직임 처리도 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.