QUICK REVIEW

[논문 리뷰] Self-Supervised Joint Learning Framework of Depth Estimation via Implicit Cues

Jianrong Wang, Ge Zhang|arXiv (Cornell University)|2020. 06. 17.

Advanced Vision and Imaging참고 문헌 44인용 수 23

한 줄 요약

이 논문은 연속된 영상 프레임에서 시간적 및 공간적 힌트를 활용하여 단안 영상의 깊이 추정을 위한 자기지도 학습 통합 학습 프레임워크를 제안한다. 이는 두 가지 새로운 모듈을 통해 이루어지며, 얕은 유닛 스트림 특징에서 정적 및 동적 깊이 신호를 캡처하는 암묵적 깊이 신호 추출기(IDCE)와 글로벌 자세 추정을 정밀하게 하는 고차원 주의 모듈(HAM)을 포함한다. 이 방법은 특징 최적화 과정에서 개선된 기하학적 일致성과 강건성을 바탕으로 깊이 불연속성과 운동 아티팩트를 감소시켜 KITTI 및 Make3D 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

In self-supervised monocular depth estimation, the depth discontinuity and motion objects' artifacts are still challenging problems. Existing self-supervised methods usually utilize a single view to train the depth estimation network. Compared with static views, abundant dynamic properties between video frames are beneficial to refined depth estimation, especially for dynamic objects. In this work, we propose a novel self-supervised joint learning framework for depth estimation using consecutive frames from monocular and stereo videos. The main idea is using an implicit depth cue extractor which leverages dynamic and static cues to generate useful depth proposals. These cues can predict distinguishable motion contours and geometric scene structures. Furthermore, a new high-dimensional attention module is introduced to extract clear global transformation, which effectively suppresses uncertainty of local descriptors in high-dimensional space, resulting in a more reliable optimization in learning framework. Experiments demonstrate that the proposed framework outperforms the state-of-the-art(SOTA) on KITTI and Make3D datasets.

연구 동기 및 목표

연속된 프레임 간의 동적 및 정적 신호를 충분히 활용하지 못함으로 인해 발생하는 자기지도 학습 단안 깊이 추정에서의 깊이 불연속성과 운동 아티팩트를 해결하기 위해.
영상 시퀀스의 시간적 일致성을 활용하여 물체 경계 부근 및 움직이는 물체의 깊이 추정 정확도를 향상시키기 위해.
고차원 특징 공간에서의 자세 추정 강건성을 향상시켜 불확실성을 감소시키고 시각 재구성 품질을 향상시키기 위해.
기존 자기지도 학습 깊이 추정 파ipeline에 아키텍처 수정 없이 통합 가능한 일반화 가능한 프레임워크를 설계하기 위해.

제안 방법

스택된 연속 프레임에서 유입되는 유닛 스트림 특징를 처리하는 암묵적 깊이 신호 추출기(IDCE)를 도입하여, 계단식 블록을 통해 암묵적인 정적 및 동적 깊이 신호를 추출한다.
유닛 스트림 내 컨볼루션 활성화 패턴의 통계 분석을 통해 깊이 제안을 생성하고, 이는 동적 물체 부근에서의 더 정확한 예측과 정적 환경에서의 부드러운 전이를 위한 DepthNet의 예측을 안내한다.
유닛 스트림 특징에서 고차원 공간에서의 전역 변환 패턴을 추출하기 위해 컨볼루션과 가우시안 커널을 적용하는 고차원 주의 모듈(HAM)을 제안한다. 이는 고차원 공간에서 국소 기술자 불확실성을 억제한다.
IDCE와 HAM를 DepthNet과 PoseNet과 함께 통합된 공동 학습 프레임워크에 통합한다. 여기서 IDCE는 DepthNet 디코더에 연결되고, HAM는 PoseNet의 특징 표현을 향상시켜 더 나은 시각 재구성 성능을 달성한다.
예측된 깊이와 카메라 자세를 사용하여 원본 시각을 왜곡한 시각과 목표 시각 간의 픽셀 단위 차이를 최소화하는 시각 재구성 손실 기반 자기지도 학습 목표를 적용한다.
단안 및 스테레오 영상 입력을 모두 지원하며, IDCE는 훈련 시 시간적 프레임에서 활성화되고 정적 프레임에서의 추론에도 적응 가능하다.

실험 결과

연구 질문

RQ1연속된 영상 프레임에서 추출한 암묵적 동적 및 정적 신호가, 특히 물체 경계 부근과 움직이는 물체에서의 깊이 추정 정확도를 향상시키는가?
RQ2유닛 스트림 특징에서 전역 변환 패턴을 모델링하는 고차원 주의 메커니즘이 자세 추정의 불확실성을 감소시키고 재구성 품질을 향상시키는가?
RQ3제안된 IDCE 및 HAM 모듈은 아키텍처 변경 없이 다른 자기지도 학습 깊이 추정 네트워크에 일반화 가능한가?
RQ4유닛 스트림에서 시간적 및 공간적 힌트를 통합하면 KITTI 및 Make3D와 같은 표준 벤치마크에서 성능에 어떤 영향을 미치는가?

주요 결과

제안된 프레임워크는 고해상도(320×1024) 입력에서 KITTI 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성하며, 절대 상대 오차(Abs Rel)는 0.101, delta < 1.25 정확도는 0.898을 기록한다.
Make3D 데이터셋에서는 Abs Rel이 0.106, delta < 1.25가 0.890으로 나타나 다양한 데이터셋 간 강력한 일반화 능력을 입증한다.
HAM 모듈은 특징 통계의 부드러움을 보여주는 시각화를 통해 특징 불확실성을 감소시키며, 특히 노이즈가 많거나 복잡한 유닛 스트림 공간에서 자세 추정의 강건성을 향상시킨다.
IDCE 모듈은 운동 블러를 효과적으로 감소시키고 물체 경계에서 윤곽선의 선명도를 향상시켜, IDCE가 적용된 경우 더 명확한 깊이 맵을 보여주는 정성적 비교 결과로 입증된다.
절단 분석 결과, HAM는 다양한 PoseNets에서 일관되게 성능 향상을 이끌지만, 더 단순한 주의 모듈인 CAM은 노이즈가 많은 특징에 민감하여 일부 네트워크에서는 성능이 악화됨을 확인했다.
고해상도 훈련(320×1024)은 성능 향상을 가져오지만 훈련 시간을 약 49시간으로 증가시켜 정확도와 효율성 사이의 상충 관계를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.