QUICK REVIEW

[논문 리뷰] Semantically-Guided Representation Learning for Self-Supervised Monocular Depth

Vitor Guizilini, Rui Hou|arXiv (Cornell University)|2020. 02. 27.

Advanced Vision and Imaging인용 수 107

한 줄 요약

이 논문은 픽셀-적응 컨벌루션을 통해 고정된 사전 학습된 의미적 특징을 활용하여 깊이 표현을 개선하고, 동적 객체 편향을 줄이기 위한 2단계 학습을 도입한 의미 기반 자기지도 단안 깊이 프레임워크를 제시한다.

ABSTRACT

Self-supervised learning is showing great promise for monocular depth estimation, using geometry as the only source of supervision. Depth networks are indeed capable of learning representations that relate visual appearance to 3D properties by implicitly leveraging category-level patterns. In this work we investigate how to leverage more directly this semantic structure to guide geometric representation learning, while remaining in the self-supervised regime. Instead of using semantic labels and proxy losses in a multi-task approach, we propose a new architecture leveraging fixed pretrained semantic segmentation networks to guide self-supervised representation learning via pixel-adaptive convolutions. Furthermore, we propose a two-stage training process to overcome a common semantic bias on dynamic objects via resampling. Our method improves upon the state of the art for self-supervised monocular depth prediction over all pixels, fine-grained details, and per semantic categories.

연구 동기 및 목표

고정된 사전 학습된 의미 분할을 활용하여 자기지도 단안 깊이 학습을 안내한다.
의미 인식 특성 가이던스를 픽셀-적응 컨볼루션을 통해 깊이 네트워크에 도입한다.
동적 객체의 의미 편향을 다루기 위해 무한 깊이 아티팩트를 줄이는 2단계 학습 프로세스를 도입한다.
KITTI에서 픽셀, 클래스 및 동적 객체 전반에 걸쳐 최첨단 자기지도 단안 깊이보다 향상된 성능을 보여준다.

제안 방법

깊이 특징을 안내하기 위해 고정된 사전 학습 의미 분할 네트워크를 사용한다.
가이던스 특징이 의미 특징 위의 가우시안 커널을 통해 컨볼루션 가중치를 조절하는 픽셀-적응 컨볼루션을 적용한다.
의미 특징을 다층 맵으로 처리하고 가이던스 방정식(Eq. 4 및 5)을 통해 통합한다.
광도 기반의 자기지도 SfM 설정에서 깊이/포즈 네트워크를 학습하고 광도적 및 에지 인식 깊이 손실을 사용한다.
초기 깊이 모델을 기반으로 학습 데이터를 재샘플링하여 동적 객체의 무한 깊이 예측 편향을 제거하기 위한 2단계 학습 파이프라인을 구현한다.

실험 결과

연구 질문

RQ1고정된 의미 가이던스가 타깃 데이터에서 의미 지도 감독 없이 자기지도 단안 깊이 표현을 개선할 수 있는가?
RQ2의미 가이던스를 갖춘 픽셀-적응 컨볼루션이 의미 클래스 간 경계가 선명한 더 정확한 깊이 맵을 생성하는가?
RQ32단계 학습 방식이 자기지도 깊이 추정의 동적 객체에서 무한 깊이 편향을 완화하는가?
RQ4제안된 접근법이 여러 깊이 네트워크 아키텍처 및 규모와 호환되는가?
RQ5의미 가이던스에 의해 클래스별 또는 픽셀 수준의 깊이 성능이 베이스라인 대비 어떻게 개선되는가?

주요 결과

KITTI에서 표준 지표를 넘어 최첨단 자기지도 단안 깊이 방법을 능가한다.
의미 기반 가이드 깊이 특징이 경계선을 더 선명하게 만들고 멀리 있는 미세한 구조를 더 잘 구분한다.
2단계 학습은 동적 객체에서 무한 깊이 아티팩트를 줄여 클래스 평균 Abs-Rel을 개선하며 특히 자동차 및 오토바이에 대해 두드러진 개선을 보인다.
다양한 인코더 백본(ResNet-18, ResNet-50, PackNet)에서 깊이가 일관되게 향상된다.
추론은 의미 가이드 및 2단계 학습이 성능 향상에 기여함을 보여주는 제거(abl) 분석이 뒷받침된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.