Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Supervised Monocular Depth Estimation with Internal Feature Fusion

Hang Zhou, David Greenwood|arXiv (Cornell University)|2021. 10. 18.
Advanced Vision and Imaging참고 문헌 40인용 수 58
한 줄 요약

DIFFNet는 고해상도 HRNet 인코더를 내부 다단계 특징 융합과 주의 기반 디코더를 사용하여 자기 지도 monocular 깊이 추정 성능을 향상시키며, 특히 더 높은 해상도에서 KITTI 최신 결과를 달성합니다.

ABSTRACT

Self-supervised learning for depth estimation uses geometry in image sequences for supervision and shows promising results. Like many computer vision tasks, depth network performance is determined by the capability to learn accurate spatial and semantic representations from images. Therefore, it is natural to exploit semantic segmentation networks for depth estimation. In this work, based on a well-developed semantic segmentation network HRNet, we propose a novel depth estimation network DIFFNet, which can make use of semantic information in down and upsampling procedures. By applying feature fusion and an attention mechanism, our proposed method outperforms the state-of-the-art monocular depth estimation methods on the KITTI benchmark. Our method also demonstrates greater potential on higher resolution training data. We propose an additional extended evaluation strategy by establishing a test set of challenging cases, empirically derived from the standard benchmark.

연구 동기 및 목표

  • 단일 이미지에서의 깊이 추정을 SfM 감독 하에 자가 지도 학습 프레임워크 내에서 동기화한다.
  • 의미적으로 풍부하고 고해상도 특징이 인코더 내에서 융합되어 의미론적 정보와 공간적 간극을 연결할 수 있는지 탐구한다.
  • 내부 다단계 특징 융합과 주의 기반 디코더를 가진 DIFFNet를 제안하여 깊이 정확도를 향상시킨다.
  • 상태-최첨단 KITTI 결과를 시연하고 도전적인 사례에 대한 확장 평가를 도입한다.

제안 방법

  • 높은 해상도와 의미론적으로 풍부한 특징을 유지하기 위해 깊이 인코더로 HRNet을 채택한다.
  • HRNet 스트림 간 다단계 특징을 연결(concatenating)하여 의미적으로 다양한 고해상도 표현을 생성함으로써 내부 특징 융합을 도입한다.
  • 스킵 연결 처리용 주의 모듈을 갖춘 U-네트 형태 아키텍처의 주의 기반 디코더를 구현한다.
  • 채널-와이즈, 공간, 채널-공간 세 가지 주의 전략을 평가하고 채널-와이즈 주의가 최선으로 선택되었다.
  • 표준 깊이 매끄러움 정규화와 함께 광도(photometric) 및 SSIM 기반 손실을 사용하여 자가 지도 프레임워크를 학습한다.
  • 사전학습, 다단계 융합, 주의의 깊이 정확도에 미치는 영향을 분리하기 위한 절차를 수행한다.

실험 결과

연구 질문

  • RQ1의미론적 백본에서 다단계 고해상도 특징의 내부 융합이 자가 지도 아래 단일 이미지에서의 깊이 추정을 어떻게 개선할 수 있는가?
  • RQ2깊이 맵의 디코딩에 대한 스킵 연결에 다양한 주의 메커니즘이 미치는 영향은 어떤가?
  • RQ3DIFFNet이 KITTI에서 기존의 자기 지도 방법들보다 높은 입력 해상도에서 우수한가?
  • RQ4도전적인 KITTI 사례에 대한 확장 평가가 의미 정보 기반 깊이 추정의 강건성 우위를 드러내는가?

주요 결과

방법학습WxHAbs RelSq RelRMSERMSE logdelta1delta2delta3
SfMlearnerM640x1920.1831.5956.7090.2700.7340.9020.959
LiM416x1280.1300.9505.1380.2090.8430.9480.978
ChenM+Se512x2560.1180.9055.0960.2110.8390.9450.977
Monodepth2M640x1920.1150.9034.8630.1930.8770.9590.981
SGDepthM+Se640x1920.1130.8354.6930.1910.8790.9610.981
SAFENetM+Se640x1920.1120.7884.5820.1870.8780.9630.983
VC-DepthM640x1920.1120.8164.7150.1900.8800.9600.982
PackNetM640x1920.1110.7854.6010.1890.8780.9600.982
Mono-UncertaintyM640x1920.1110.8634.7560.1880.8810.9610.982
FangM640x1920.111-4.6600.1860.8840.9620.982
HR-depthM640x1920.1090.7924.6320.1850.8870.9620.983
DIFFNetM640x1920.1020.7644.4830.1800.8960.9650.983
Monodepth2MS640x1920.1060.8184.7500.1960.8740.9570.979
HR-depthMS640x1920.1070.7854.6120.1850.8870.9620.982
FangMS640x1920.101-4.5120.1880.8810.9610.981
DIFFNetMS640x1920.1010.7494.4450.1790.8980.9650.983
Monodepth2MS1024x3200.1150.8824.7010.1900.8790.9610.982
FangMS1024x3200.109-4.5810.1850.8900.9640.983
PackNetMS1280x3840.1070.8024.5380.1860.8890.9620.981
SGDepthMS1280x3840.1070.7684.4680.1860.8910.9630.982
SAFENetMS1024x3200.1060.7434.4890.1810.8840.9650.984
HR-depthMS1024x3200.1060.7554.4720.1810.8920.9660.984
Feat-DepthMS1024x3200.1040.7294.4810.1790.8930.9650.984
GuiziliniMS1280x3840.1000.7614.2700.1750.9020.9650.982
DIFFNetMS1024x3200.0970.7224.3450.1740.9070.9670.984
  • DIFFNet은 KITTI에서 자기 지도 방법 중 표준 지표에서 우수한 성능을 달성하거나 경쟁력 있는 결과를 보인다.
  • encoder를 ImageNet에서 사전학습하는 것이 ablation 구성 중 가장 큰 성능 향상을 제공한다.
  • 채널-와이즈 주의가 디코더에서 공간 또는 채널-공간 주의보다 더 나은 정확도를 보인다.
  • 다단계 특징 융합은 주의 구성에 관계없이 깊이 예측을 일관되게 향상시킨다.
  • 해상도가 더 높은 1024x320에서 정확도를 더 향상시키고 비교 방법들에 비해 우위를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.