[논문 리뷰] Semantically-Guided Representation Learning for Self-Supervised Monocular Depth
의미적으로 가이드되는 자기 지도(Self-Supervised) 단안 깊이 방법을 도입하여 고정된 사전학습된 의미 특징을 깊이 네트워크의 픽셀-적응 컨볼루션을 안내하는 것과 동적 객체에서 무한 깊이 편향을 완화하기 위한 두 단계 학습 스킴을 더해 KITTI에서 최첨단 결과를 달성합니다.
Self-supervised learning is showing great promise for monocular depth estimation, using geometry as the only source of supervision. Depth networks are indeed capable of learning representations that relate visual appearance to 3D properties by implicitly leveraging category-level patterns. In this work we investigate how to leverage more directly this semantic structure to guide geometric representation learning, while remaining in the self-supervised regime. Instead of using semantic labels and proxy losses in a multi-task approach, we propose a new architecture leveraging fixed pretrained semantic segmentation networks to guide self-supervised representation learning via pixel-adaptive convolutions. Furthermore, we propose a two-stage training process to overcome a common semantic bias on dynamic objects via resampling. Our method improves upon the state of the art for self-supervised monocular depth prediction over all pixels, fine-grained details, and per semantic categories.
연구 동기 및 목표
- 의미 구조를 활용하여 자기 지도 단안 깊이 학습을 개선하려는 동기 부여.
- 고정된 사전 학습 의미 분할 특징을 이용해 픽셀-적응 컨볼루션으로 깊이 특징을 유도하는 아키텍처를 개발.
- 동적 객체에서 의미 편향을 두 단계 재샘플링 학습 과정으로 해결.
- KITTI에서 픽셀, 의미 클래스 및 동적 카테고리 전반에 걸친 깊이 정확도 향상을 증명.
제안 방법
- 고정된 사전 학습 의미 분할 네트워크를 사용해 픽셀-적응 컨볼루션으로 깊이 특징 학습을 안내.
- 3x3 및 1x1 컨볼루션, GroupNorm, ELU를 거친 다중 의미 특징 맵으로부터 의미 인식 가이드를 가진 깊이 특징 표현.
- 의미 유사도가 시각적 컨볼루션 가중치를 의미 특징을 통한 가우시안 커널로 모듈레이션하는 픽셀-적응 컨볼루션으로 깊이 특징을 계산.
- 포토메트릭 및 엣지-인식 깊이 손실, 자동 마스킹, 역깊이 업샘플링을 포함한 자기 지도 SfM 설정에서 깊이/자세 네트워크를 학습.
- (1) 모든 데이터로 무한 깊이 편향을 식별하기 위해 학습; (2)biased 시퀀스를 제거하기 위한 재샘플링 후 처음부터 재학습하는 2단계 학습 regime를 구현.
실험 결과
연구 질문
- RQ1고정된 사전 학습 의미 지도가 대상 데이터에서 의미 감독 없이도 자기 지도 단안 깊이 표현을 개선할 수 있는가?
- RQ2의미 특징으로 안내된 픽셀-적응 컨볼루션이 미세한 구조 및 멀리 있는 물체에서 깊이 추정에 향상을 주는가?
- RQ3두 단계 데이터 재샘플링 전략이 동적 객체의 무한 깊이 편향을 효과적으로 완화하는가?
- RQ4다양한 깊이 네트워크 백본에서 의미 가이드 접근법의 성능은 어떠한가?
주요 결과
| 방법 | Abs Rel | Sq Rel | RMSE | RMSE log | delta<1.25 | delta<1.25^2 | delta<1.25^3 |
|---|---|---|---|---|---|---|---|
| Garg et al. (2016) | 0.152 | 1.226 | 5.849 | 0.246 | 0.784 | 0.921 | 0.967 |
| Zou et al. (2018) | 0.150 | 1.124 | 5.507 | 0.223 | 0.806 | 0.933 | 0.973 |
| Godard et al. (2017) | 0.141 | 1.186 | 5.677 | 0.238 | 0.809 | 0.928 | 0.969 |
| Zhan et al. (2018) | 0.135 | 1.132 | 5.585 | 0.229 | 0.820 | 0.933 | 0.971 |
| Godard et al. (2018) R18 (M) | 0.115 | 0.903 | 4.863 | 0.193 | 0.877 | 0.959 | 0.981 |
| Godard et al. (2018) R50 (M) | 0.112 | 0.851 | 4.754 | 0.190 | 0.881 | 0.960 | 0.981 |
| Guizilini et al. (2019) MR (M) | 0.108 | 0.727 | 4.426 | 0.184 | 0.885 | 0.963 | 0.983 |
| Guizilini et al. (2019) HR (M) | 0.104 | 0.758 | 4.386 | 0.182 | 0.895 | 0.964 | 0.982 |
| Casser et al. (2019) S+Inst (M) | 0.141 | 1.025 | 5.290 | 0.215 | 0.816 | 0.945 | 0.979 |
| Chen et al. (2019) S+Sem (M) | 0.118 | 0.905 | 5.096 | 0.211 | 0.839 | 0.945 | 0.977 |
| Ochs et al. (2019) D+Sem (M) | 0.116 | 0.945 | 4.916 | 0.208 | 0.861 | 0.952 | 0.968 |
| Ours (MR) (M+Sem) | 0.102 | 0.698 | 4.381 | 0.178 | 0.896 | 0.964 | 0.984 |
| Ours (HR) (M+Sem) | 0.100 | 0.761 | 4.270 | 0.175 | 0.902 | 0.965 | 0.982 |
- 의미 가이드 아키텍처가 KITTI에서 상태-오브-더-아트(Self-Supervised) 단안 깊이 방법 대비 지표 전반에서 일관되게 개선을 보인다.
- 경계부 및 멀리 있거나 미세한 구조(예: 기둥, 표지판)에서 깊이 인식이 특히 향상된다.
- 두 단계 학습은 동적 객체의 무한 깊이 편향을 효과적으로 감소시키며 클래스 평균 Abs-Rel(예: 자동차, 오토바이)을 개선한다.
- 여러 깊이 네트워크 백본(resNet-18, ResNet-50, PackNet)에서 의미 가이드 여부에 관계없이 이 접근법이 이득을 준다.
- 의미 정보나 인스턴스 정보를 사용하는 방법들과 비교할 때, 고정된 의미 가이드를 갖춘 제안 방법이 경쟁력 있거나 우수한 결과를 달성한다.
- 정성적으로 깊이 맵은 경계가 더 뚜렷하고 동적 및 원거리 요소의 구분이 개선된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.