QUICK REVIEW

[논문 리뷰] Learning Depth from Monocular Videos using Direct Methods

Chaoyang Wang, José M. Buenaposada|arXiv (Cornell University)|2017. 12. 01.

Advanced Vision and Imaging참고 문헌 2인용 수 35

한 줄 요약

이 논문은 이전 연구에서 사용된 포즈 CNN을 대체하여 미분 가능하고 파ameter가 없는 직접 시각 추정(Direct Visual Odometry, DDVO) 모듈과 새로운 깊이 정규화 전략을 도입함으로써 단일 영상에서 비지도 깊이 추정을 위한 새로운 방법을 제안한다. 이 방법은 KITTI 데이터셋에서 최신 기준(SOTA) 성능을 달성하며, 스케일 모호성 문제를 더 잘 다루고 포즈 추정을 통해 역전파를 허용함으로써 스테레오 기반 방법에 가까운 정확도를 달성한다.

ABSTRACT

The ability to predict depth from a single image - using recent advances in CNNs - is of increasing interest to the vision community. Unsupervised strategies to learning are particularly appealing as they can utilize much larger and varied monocular video datasets during learning without the need for ground truth depth or stereo. In previous works, separate pose and depth CNN predictors had to be determined such that their joint outputs minimized the photometric error. Inspired by recent advances in direct visual odometry (DVO), we argue that the depth CNN predictor can be learned without a pose CNN predictor. Further, we demonstrate empirically that incorporation of a differentiable implementation of DVO, along with a novel depth normalization strategy - substantially improves performance over state of the art that use monocular videos for training.

연구 동기 및 목표

스테레오 기반 및 단일 영상 기반 비지도 깊이 추정 방법 간의 성능 격차를 해소한다.
스케일 민감도에 기인한 깊이 정규화에 의해 발생하는 기존 단일 영상 깊이 학습 프레임워크의 스케일 모호성 문제를 해결한다.
별도의 포즈 CNN이 필요 없도록, 학습 파이프라인에 미분 가능하고 결정론적인 DVO 모듈을 통합한다.
사전 학습된 포즈-CNN으로 DDVO를 초기화하는 하이브리드 학습 전략을 통해 학습 안정성과 정확도를 향상시킨다.

제안 방법

기존 비지도 방법에서 사용하는 포즈 CNN을 대체로, 포즈 추정을 통한 역전파를 허용하는 미분 가능한 Direct Visual Odometry(DDVO)의 구현을 도입한다.
스케일 민감도를 완화하고 학습 수렴을 향상시키기 위해 새로운 깊이 정규화 전략을 제안한다.
DDVO 모듈을 사용해 왜곡된 영상과 타겟 프레임 간의 광학 재구성 오차를 최소화하는 것으로 학습 목표를 설정한다.
초기 학습 단계에서 사전 학습된 포즈-CNN의 예측 결과로 DDVO 모듈을 초기화하는 하이브리드 학습 절차를 사용한다. 이를 통해 초기화를 개선하고 열악한 국소 최적점에 빠지는 것을 방지한다.
포즈에서 깊이 예측으로의 기울기 흐름을 허용하기 위해 전체 DVO 파이프라인을 미분 가능하게 만들며, 엔드 투 엔드의 기울기 전파를 보장한다.
학습 목표에 사용된 동일한 이미지 재구성 손실에서 유도된 기하학적 제약 조건을 DVO에서 활용한다.

실험 결과

연구 질문

RQ1기존 단일 영상 기반 비지도 깊이 추정 방법이 왜 스테레오 기반 방법의 성능을 따라잡지 못하는가? 특히 스케일 모호성 때문인가?
RQ2학습 가능한 포즈 CNN을 대체로, 성능 향상을 이끌 수 있는 미분 가능하고 파ameter가 없는 DVO 모듈을 사용할 수 있는가?
RQ3깊이 정규화 전략은 단일 영상 환경에서 비지도 깊이 학습의 안정성과 정확도에 어떤 영향을 미치는가?
RQ4사전 학습된 포즈-CNN으로 DVO 모듈을 초기화하면, DVO 또는 포즈-CNN을 별도로 학습시키는 것보다 더 나은 수렴과 성능을 달성하는가?

주요 결과

제안된 방법은 KITTI 깊이 추정 벤치마크에서 최신 기준(SOTA) 성능을 달성하며, Zhou et al. [31]을 초월하고 스테레오 기반 방법에 가까운 성능을 보였다.
비미분 가능한 DVO에 비해, 미분 가능한 DVO(DDVO) 모듈은 더 빠르게 수렴하고 더 나은 국소 최적점을 도달함을 짧은 영상 클립의 학습 손실 곡선을 통해 확인했다.
사전 학습된 포즈-CNN으로 DDVO 모듈을 초기화하는 것이, DDVO나 포즈-CNN을 별도로 학습시키는 것보다 유의미하게 더 높은 성능을 달성했다.
하이브리드 학습 전략(Pose-CNN + DDVO)은 KITTI 시퀀스 09에서 절대 궤적 오차(ATE) 0.045±0.108, 시퀀스 10에서 0.033±0.074를 기록하여 Zhou et al. [31]을 초월하고 전체 영상 입력을 사용하는 ORB-SLAM의 성능과도 일치했다.
정성적 결과 분석에서 제안된 방법은 Zhou et al. [31]보다 나무 줄기나 간판과 같은 더 세밀한 기하학적 구조를 더 정확하게 복원하는 것으로 나타났다.
깊이 정규화 전략은 이전 단일 영상 방법에서 수렴 불안정을 유발하는 주요 원인인 스케일 민감도를 효과적으로 감소시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.