QUICK REVIEW

[논문 리뷰] Self-supervised Learning with Geometric Constraints in Monocular Video: Connecting Flow, Depth, and Camera

Yuhua Chen, Cordelia Schmid|arXiv (Cornell University)|2019. 07. 12.

Advanced Vision and Imaging참고 문헌 56인용 수 26

한 줄 요약

GLNet는 영상 간 기하 제약 조건(예: 에피포라 기하학 및 사진 일관성)을 강제하여 단안 영상에서 깊이, 광학 흐름, 카메라 자세 및 내재 매개변수를 동시에 추정하는 자기지도 학습 딥 러닝 프레임워크이다. KITTI와 Cityscapes에서 최신 기술 수준을 달성하며, 특히 온라인 보정 및 校정되지 않은 영상 적응 기능을 통해 정확도와 강인성에서 뚜렷한 향상을 이룬다.

ABSTRACT

We present GLNet, a self-supervised framework for learning depth, optical flow, camera pose and intrinsic parameters from monocular video - addressing the difficulty of acquiring realistic ground-truth for such tasks. We propose three contributions: 1) we design new loss functions that capture multiple geometric constraints (eg. epipolar geometry) as well as an adaptive photometric loss that supports multiple moving objects, rigid and non-rigid, 2) we extend the model such that it predicts camera intrinsics, making it applicable to uncalibrated video, and 3) we propose several online refinement strategies that rely on the symmetry of our self-supervised loss in training and testing, in particular optimizing model parameters and/or the output of different tasks, thus leveraging their mutual interactions. The idea of jointly optimizing the system output, under all geometric and photometric constraints can be viewed as a dense generalization of classical bundle adjustment. We demonstrate the effectiveness of our method on KITTI and Cityscapes, where we outperform previous self-supervised approaches on multiple tasks. We also show good generalization for transfer learning in YouTube videos.

연구 동기 및 목표

실세계 지도 데이터 없이 단안 영상에서 3차원 환경 기하학을 학습하는 도전 과제를 해결한다.
LiDAR 등 고비용 데이터 수집에 의존하는 지도 학습 방법의 한계나 합성 데이터에서 발생하는 도메인 이탈 문제를 해결한다.
에피포라 제약 조건 및 다중 시점 일관성과 같은 기하 사전 지식을 딥 러닝 프레임워크에 통합하여 기하 일관성과 일반화 능력을 향상시킨다.
깊이, 흐름, 자세 및 카메라 내재 매개변수의 엔드 투 엔드 동시 최적화를 가능하게 하며, 학습-검증 비대칭성을 해소하는 온라인 보정을 포함한다.
사전 校정이 없는 영상에 대응하기 위해 내재 매개변수를 예측함으로써 실제 영상 및 다양한 테스트 도메인으로의 이식 가능성을 높인다.

제안 방법

이식 가능한 사진 일관성 손실과 기하 제약 조건(예: 에피포라 기하학)을 조합한 새로운 자기지도 학습 손실을 제안하여 이미지 쌍 간의 일관성을 강제한다.
광학 흐름을 활용하여 깊이 및 자세 예측의 시간적 일관성을 강화하는 다중 시점 구조 일관성 손실을 도입한다.
에피포라 제약 조건을 기반으로 한 미분 가능 기하 손실을 설계하여 강체 운동 추정을 정규화하고 흐름 품질을 향상시킨다.
네트워크를 확장하여 내재 매개변수를 엔드 투 엔드로 예측함으로써 사전 校정 없이도 校정되지 않은 영상에 적용할 수 있도록 한다.
PFT 및 OFT와 같은 온라인 보정 전략을 도입하여 모든 기하 및 사진 일관성 제약 조건 하에 모델 파라미터와 출력을 동시에 최적화함으로써, 밀도적이고 미분 가능한 방식으로 번들 조정을 모방한다.
자기지도 학습 손실의 대칭성을 활용하여 효율적인 추론 시 적응을 가능하게 하며, 보정 과정에서 최대 10배의 속도 향상을 달성한다.

실험 결과

연구 질문

RQ1에피포라 기하학과 같은 기하 제약 조건이 자기지도 학습 딥 러닝 프레임워크에 효과적으로 통합되어 단안 영상에서의 3차원 재구성 성능을 향상시킬 수 있는가?
RQ2깊이, 흐름, 자세 및 내재 매개변수의 동시 최적화가 독립적 또는 약한 결합 학습에 비해 성능 향상과 일반화 능력을 얼마나 향상시키는가?
RQ3온라인 보정 전략이 학습과 추론 간 비대칭성을 얼마나 효과적으로 해소하여 실제 환경 구현에서 강인성과 정확도를 향상시키는가?
RQ4한 데이터셋(예: KITTI)에서 학습한 자기지도 모델이 내재 매개변수가 알려지지 않은 다른 도메인(예: YouTube)의 校정되지 않은 영상으로도 효과적으로 일반화될 수 있는가?
RQ5내재 매개변수를 엔드 투 엔드로 예측하는 것이 고정 또는 사전 校정된 내재 매개변수를 사용하는 것보다 校정되지 않은 환경에서 성능 향상과 적응성 향상에 기여하는가?

주요 결과

GLNet는 깊이 추정에서 KITTI에서 최신 기술 수준의 성능을 달성하였으며, 기준 모델 대비 1.2% 상대적 향상률을 기록하고 이전 자기지도 학습 방법을 능가한다.
광학 흐름 분야에서 GLNet는 비교적 영역(Noc)에서 평균 종단점 오차(EPE) 4.86, 모든 영역(All)에서 8.35를 기록하였으며, 기준 모델(6.80 및 12.28)을 크게 능가하고, FlowNetS와 같은 지도 학습 모델과도 비슷하거나 뛰어난 성능을 보였다.
에피포라 제약 조건 손실이 흐름 향상에 가장 기여하였으며, 기준 모델 대비 EPE를 1.3점 이상 감소시켰고, 정성적 결과에서는 더 명확한 강체 운동 추정이 가능함을 확인하였다.
KITTI 오도메트리 벤치마크에서 자세 추정 결과, 시퀀스 09에서는 절대 궤적 오차(ATE) 0.011 ± 0.006, 시퀀스 10에서는 0.011 ± 0.009를 기록하여 이전 자기지도 학습 방법을 능가하였고, ORB-SLAM 및 GeoNet와도 유사하거나 뛰어난 성능을 보였다.
PFT 및 OFT를 통한 온라인 보정은 피드포워드 예측 성능을 크게 향상시켰으며, OFT는 PFT 수준의 정확도를 달성하면서도 최대 10배의 속도 향상을 보이며 실용적인 구현 가능성을 입증하였다.
GLNet는 校정되지 않은 영상(예: YouTube)으로의 일반화 능력이 뛰어나 내재 매개변수가 사전에 알려지지 않은 상태에서도 강력한 성능을 유지하며, 엔드 투 엔드 내재 매개변수 예측 및 기하 정규화의 전이 학습에서의 가치를 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.