QUICK REVIEW

[논문 리뷰] Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video

Jia-Wang Bian, Zhichao Li|arXiv (Cornell University)|2019. 08. 28.

Advanced Vision and Imaging인용 수 295

한 줄 요약

본 논문은 단일 카메라 비디오로부터 깊이(depth)와 ego-motion 네트워크를 학습하기 위한 기하학적 일관성 손실과 자체 탐지(mask)를 제안하며, KITTI에서 모노큘러 깊이 최적 성능(SOTA)을 달성하고 스테레오 감독 없이도 글로벌하게 스케일 일관된 비주얼 오도메트리(VO)를 달성한다.

ABSTRACT

Recent work has shown that CNN-based depth and ego-motion estimators can be learned using unlabelled monocular videos. However, the performance is limited by unidentified moving objects that violate the underlying static scene assumption in geometric image reconstruction. More significantly, due to lack of proper constraints, networks output scale-inconsistent results over different samples, i.e., the ego-motion network cannot provide full camera trajectories over a long video sequence because of the per-frame scale ambiguity. This paper tackles these challenges by proposing a geometry consistency loss for scale-consistent predictions and an induced self-discovered mask for handling moving objects and occlusions. Since we do not leverage multi-task learning like recent works, our framework is much simpler and more efficient. Comprehensive evaluation results demonstrate that our depth estimator achieves the state-of-the-art performance on the KITTI dataset. Moreover, we show that our ego-motion network is able to predict a globally scale-consistent camera trajectory for long video sequences, and the resulting visual odometry accuracy is competitive with the recent model that is trained using stereo videos. To the best of our knowledge, this is the first work to show that deep networks trained using unlabelled monocular videos can predict globally scale-consistent camera trajectories over a long video sequence.

연구 동기 및 목표

Ground-truth 깊이 또는 포즈 없이 모노큘러 비디오에서 깊이와 ego-motion 학습의 가능성을 제시한다.
샘플 간 스케일 불일치와 정적-장면 가정의 움직이는 물체 문제를 다룬다.
기하학 기반의 일관성 제약과 자체 탐지 마스크를 도입하여 강건성 및 효율성을 향상시킨다.

제안 방법

연속 프레임으로부터 깊이 맵과 상대 카메라 포즈를 CNN으로 예측한다.
예측된 깊이와 포즈를 이용해 differentiable 보간으로 한 프레임을 다른 프레임에서 왜곡하고 재구성한다.
연속 프레임 간 깊이 불일치를 최소화하여 스케일 일관성을 강제하는 기하학적 일관성 손실 L_GC를 도입한다.
깊이 불일치 D_diff로부터 자기 탐지 마스크 M을 도출해 포토메트릭 손실에서 다이나믹 영역과 가림을 해당 픽셀에서 낮춰 반영한다.
포토메트릭 손실, SSIM, 에지-의식적 매끄러움, 기하학적 일관성 손실의 가중 합으로 학습한다.
단일 스케일 감독으로 KITTI를 평가하고 다중 태스크 감독 없이도 깊이 SOTA와 경쟁력 있는 장기 시퀀스 VO를 시연한다.

실험 결과

연구 질문

RQ1모노큘러 비디오에서 학습된 깊이 및 자가운전 네트워크가 긴 시퀀스에 걸쳐 전역적으로 스케일 일관된 예측을 달성할 수 있는가?
RQ2추가 감독이나 다중 태스크 없이 기하학적 제약을 어떻게 활용해 스케일 일관성을 보장할 수 있는가?
RQ3재구성 불일치에서 파생된 자체 탐지 마스크가 추가 네트워크 없이도 다이나믹 객체 및 가림을 효과적으로 처리할 수 있는가?
RQ4깊이에 대한 단일 스케일 감독이 모노큘러 학습에서 다중 스케일 감독과 비교해 어떤 차이가 있는가?
RQ5KITTI에서 모노큘러로 학습된 VO의 성능은 스테레오 기반 기준과 어떻게 비교되는가?

주요 결과

Method	Dataset	AbsRel	SqRel	RMS	RMSlog	<1.25	<1.25^2	<1.25^3
Eigen et al.	K (D)	0.203	1.548	6.307	0.282	0.702	0.890	0.958
Liu et al.	K (D)	0.202	1.614	6.523	0.275	0.678	0.895	0.965
Garg et al.	K ( B )	0.152	1.226	5.849	0.246	0.784	0.921	0.967
Kuznietsov et al.	K ( B +D)	0.113	0.741	4.621	0.189	0.862	0.960	0.986
Godard et al.	K ( B )	0.148	1.344	5.927	0.247	0.803	0.922	0.964
Godard et al.	CS+K ( B )	0.124	1.076	5.311	0.219	0.847	0.942	0.973
Zhan et al.	K ( B )	0.144	1.391	5.869	0.241	0.803	0.928	0.969
Zhou et al.	K ( M )	0.208	1.768	6.856	0.283	0.678	0.901	0.960
Yang et al.	K ( M )	0.182	1.481	6.501	0.267	0.725	0.906	0.963
Mahjourian et al.	K ( M )	0.163	1.240	6.220	0.250	0.762	0.916	0.968
Wang et al.	K ( M )	0.151	1.257	5.583	0.228	0.810	0.936	0.974
Geonet-VGG	K ( M )	0.164	1.303	6.090	0.247	0.765	0.919	0.968
Geonet-Resnet	K ( M )	0.155	1.296	5.857	0.233	0.793	0.931	0.973
DF-Net	K ( M )	0.150	1.124	5.507	0.223	0.806	0.933	0.973
CC	K ( M )	0.140	1.070	5.326	0.217	0.826	0.941	0.975
Ours	K ( M )	0.137	1.089	5.439	0.217	0.830	0.942	0.975
Zhou CS+K	CS+K ( M )	0.198	1.836	6.565	0.275	0.718	0.901	0.960
Yang	CS+K ( M )	0.165	1.360	6.641	0.248	0.750	0.914	0.969
Mahjourian	CS+K ( M )	0.159	1.231	5.912	0.243	0.784	0.923	0.970
Wang	CS+K ( M )	0.148	1.187	5.496	0.226	0.812	0.938	0.975
Geonet-Resnet	CS+K ( M )	0.153	1.328	5.737	0.232	0.802	0.934	0.972
DF-Net	CS+K ( M )	0.146	1.182	5.215	0.213	0.818	0.943	0.978
CC	CS+K ( M )	0.139	1.032	5.199	0.213	0.827	0.943	0.977
Ours	CS+K ( M )	0.128	1.047	5.234	0.208	0.846	0.947	0.976

깊이 추정기는 모노큘러 비디오로 학습된 방법들 중 KITTI에서 최첨단 성능을 달성한다.
자기 모션 예측기는 긴 시퀀스에 걸쳐 전역적으로 스케일 일관된 카메라 궤적을 제공하며 스테레오 학습 모델과 경쟁력이 있다.
기하학적 일관성 손실은 스케일 불일치를 감소시키고 시퀀스 간 프레임-대-프레임 일관성을 전달한다.
깊이 불일치에서 파생된 자체 탐지 마스크는 다이나믹/가림 영역의 픽셀을 추가 네트워크 없이 효과적으로 낮춰 준다.
단일 스케일 감독이 이 설정에서 다중 스케일 감독보다 성능과 견고성 면에서 우수하다.
본 접근법은 깊이 정확도와 시각적 오도메트리 면에서 강한 성능을 보여주며 학습 효율성도 크게 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.