QUICK REVIEW

[논문 리뷰] Self-Supervised Monocular Depth Estimation with Internal Feature Fusion

Hang Zhou, David Greenwood|arXiv (Cornell University)|2021. 10. 18.

Advanced Vision and Imaging참고 문헌 40인용 수 58

한 줄 요약

DIFFNet는 고해상도 HRNet 인코더를 내부 다단계 특징 융합과 주의 기반 디코더를 사용하여 자기 지도 monocular 깊이 추정 성능을 향상시키며, 특히 더 높은 해상도에서 KITTI 최신 결과를 달성합니다.

ABSTRACT

Self-supervised learning for depth estimation uses geometry in image sequences for supervision and shows promising results. Like many computer vision tasks, depth network performance is determined by the capability to learn accurate spatial and semantic representations from images. Therefore, it is natural to exploit semantic segmentation networks for depth estimation. In this work, based on a well-developed semantic segmentation network HRNet, we propose a novel depth estimation network DIFFNet, which can make use of semantic information in down and upsampling procedures. By applying feature fusion and an attention mechanism, our proposed method outperforms the state-of-the-art monocular depth estimation methods on the KITTI benchmark. Our method also demonstrates greater potential on higher resolution training data. We propose an additional extended evaluation strategy by establishing a test set of challenging cases, empirically derived from the standard benchmark.

연구 동기 및 목표

단일 이미지에서의 깊이 추정을 SfM 감독 하에 자가 지도 학습 프레임워크 내에서 동기화한다.
의미적으로 풍부하고 고해상도 특징이 인코더 내에서 융합되어 의미론적 정보와 공간적 간극을 연결할 수 있는지 탐구한다.
내부 다단계 특징 융합과 주의 기반 디코더를 가진 DIFFNet를 제안하여 깊이 정확도를 향상시킨다.
상태-최첨단 KITTI 결과를 시연하고 도전적인 사례에 대한 확장 평가를 도입한다.

제안 방법

높은 해상도와 의미론적으로 풍부한 특징을 유지하기 위해 깊이 인코더로 HRNet을 채택한다.
HRNet 스트림 간 다단계 특징을 연결(concatenating)하여 의미적으로 다양한 고해상도 표현을 생성함으로써 내부 특징 융합을 도입한다.
스킵 연결 처리용 주의 모듈을 갖춘 U-네트 형태 아키텍처의 주의 기반 디코더를 구현한다.
채널-와이즈, 공간, 채널-공간 세 가지 주의 전략을 평가하고 채널-와이즈 주의가 최선으로 선택되었다.
표준 깊이 매끄러움 정규화와 함께 광도(photometric) 및 SSIM 기반 손실을 사용하여 자가 지도 프레임워크를 학습한다.
사전학습, 다단계 융합, 주의의 깊이 정확도에 미치는 영향을 분리하기 위한 절차를 수행한다.

실험 결과

연구 질문

RQ1의미론적 백본에서 다단계 고해상도 특징의 내부 융합이 자가 지도 아래 단일 이미지에서의 깊이 추정을 어떻게 개선할 수 있는가?
RQ2깊이 맵의 디코딩에 대한 스킵 연결에 다양한 주의 메커니즘이 미치는 영향은 어떤가?
RQ3DIFFNet이 KITTI에서 기존의 자기 지도 방법들보다 높은 입력 해상도에서 우수한가?
RQ4도전적인 KITTI 사례에 대한 확장 평가가 의미 정보 기반 깊이 추정의 강건성 우위를 드러내는가?

주요 결과

방법	학습	WxH	Abs Rel	Sq Rel	RMSE	RMSE log	delta1	delta2	delta3
SfMlearner	M	640x192	0.183	1.595	6.709	0.270	0.734	0.902	0.959
Li	M	416x128	0.130	0.950	5.138	0.209	0.843	0.948	0.978
Chen	M+Se	512x256	0.118	0.905	5.096	0.211	0.839	0.945	0.977
Monodepth2	M	640x192	0.115	0.903	4.863	0.193	0.877	0.959	0.981
SGDepth	M+Se	640x192	0.113	0.835	4.693	0.191	0.879	0.961	0.981
SAFENet	M+Se	640x192	0.112	0.788	4.582	0.187	0.878	0.963	0.983
VC-Depth	M	640x192	0.112	0.816	4.715	0.190	0.880	0.960	0.982
PackNet	M	640x192	0.111	0.785	4.601	0.189	0.878	0.960	0.982
Mono-Uncertainty	M	640x192	0.111	0.863	4.756	0.188	0.881	0.961	0.982
Fang	M	640x192	0.111	-	4.660	0.186	0.884	0.962	0.982
HR-depth	M	640x192	0.109	0.792	4.632	0.185	0.887	0.962	0.983
DIFFNet	M	640x192	0.102	0.764	4.483	0.180	0.896	0.965	0.983
Monodepth2	MS	640x192	0.106	0.818	4.750	0.196	0.874	0.957	0.979
HR-depth	MS	640x192	0.107	0.785	4.612	0.185	0.887	0.962	0.982
Fang	MS	640x192	0.101	-	4.512	0.188	0.881	0.961	0.981
DIFFNet	MS	640x192	0.101	0.749	4.445	0.179	0.898	0.965	0.983
Monodepth2	MS	1024x320	0.115	0.882	4.701	0.190	0.879	0.961	0.982
Fang	MS	1024x320	0.109	-	4.581	0.185	0.890	0.964	0.983
PackNet	MS	1280x384	0.107	0.802	4.538	0.186	0.889	0.962	0.981
SGDepth	MS	1280x384	0.107	0.768	4.468	0.186	0.891	0.963	0.982
SAFENet	MS	1024x320	0.106	0.743	4.489	0.181	0.884	0.965	0.984
HR-depth	MS	1024x320	0.106	0.755	4.472	0.181	0.892	0.966	0.984
Feat-Depth	MS	1024x320	0.104	0.729	4.481	0.179	0.893	0.965	0.984
Guizilini	MS	1280x384	0.100	0.761	4.270	0.175	0.902	0.965	0.982
DIFFNet	MS	1024x320	0.097	0.722	4.345	0.174	0.907	0.967	0.984

DIFFNet은 KITTI에서 자기 지도 방법 중 표준 지표에서 우수한 성능을 달성하거나 경쟁력 있는 결과를 보인다.
encoder를 ImageNet에서 사전학습하는 것이 ablation 구성 중 가장 큰 성능 향상을 제공한다.
채널-와이즈 주의가 디코더에서 공간 또는 채널-공간 주의보다 더 나은 정확도를 보인다.
다단계 특징 융합은 주의 구성에 관계없이 깊이 예측을 일관되게 향상시킨다.
해상도가 더 높은 1024x320에서 정확도를 더 향상시키고 비교 방법들에 비해 우위를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.