[논문 리뷰] Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer
저자들은 다양한 심도(depth) 데이터셋을 혼합하는 손실 함수와 학습 전략을 개발하여 단일 카메라 깊이 추정의 제로샷 교차 데이터셋 전이를 가능하게 하고 여러 데이터셋에서 최첨단 성능을 달성한다.
The success of monocular depth estimation relies on large and diverse training sets. Due to the challenges associated with acquiring dense ground-truth depth across different environments at scale, a number of datasets with distinct characteristics and biases have emerged. We develop tools that enable mixing multiple datasets during training, even if their annotations are incompatible. In particular, we propose a robust training objective that is invariant to changes in depth range and scale, advocate the use of principled multi-objective learning to combine data from different sources, and highlight the importance of pretraining encoders on auxiliary tasks. Armed with these tools, we experiment with five diverse training datasets, including a new, massive data source: 3D films. To demonstrate the generalization power of our approach we use zero-shot cross-dataset transfer}, i.e. we evaluate on datasets that were not seen during training. The experiments confirm that mixing data from complementary sources greatly improves monocular depth estimation. Our approach clearly outperforms competing methods across diverse datasets, setting a new state of the art for monocular depth estimation. Some results are shown in the supplementary video at https://youtu.be/D46FzVyL9I8
연구 동기 및 목표
- 다양한 환경에서 여러 편향된 데이터셋을 활용하여 강인한 모노큘러 깊이 추정을 촉진한다.
- 데이터셋 간의 스케일 및 베이스라인 차이에 불변인 학습 목표를 개발한다.
- 다양한 소스의 데이터를 결합하기 위한 체계적 다목적 데이터 혼합 전략을 제시한다.
- 성능 향상을 위한 고용량 인코더와 인코더 프리트레이닝의 중요성을 강조한다.
제안 방법
- 데이터셋 간의 알 수 없는 스케일과 시프트를 처리하기 위해 불일치 차이 공간에서 예측한다.
- 스케일- 및 시프트-불변 손실(Lssi)을 도입하고 최소제곱 및 강건한 변형(Lssimse, Lssimae, Lssitrim) 모두 제공한다.
- 손실 계산 중 스케일 및 평행 이동(s, t)을 해결하는 정렬 전략을 제공한다.
- 깊이 불연속을 선명하게 하고 실제 경계와 일치시키기 위한 그래디언트 규제 항(Lreg)을 도입한다.
- 학습을 위한 순진한 다중 데이터셋 혼합 전략과 파레토 최적 다중 데이터셋 혼합 전략을 비교한다(등분할 vs. 다목적 최적화).
- 교차 데이터셋 전이에 대한 영향 평가를 위해 인코더 아키텍처와 프리트레이닝(ImageNet, WS-augmented)을 평가한다.
실험 결과
연구 질문
- RQ1다수의 편향된 깊이 데이터셋을 혼합하는 것이 보지 못한 데이터셋에 대한 일반화(제로샷 전이)를 향상시킬 수 있는가?
- RQ2학습 중 데이터셋 간 스케일 및 베이스라인 불일치를 어떻게 처리해야 하는가?
- RQ3다목적(파레토) 데이터셋 혼합 전략이 모노큘러 깊이 추정에서 순진한 혼합보다 성능이 우수한가?
- RQ4인코더 용량과 프리트레이닝이 교차 데이터셋 전이 성능에 미치는 영향은 무엇인가?
- RQ5스케일- 및 시프트-불변 손실로 disparity 공간에서 예측하는 것이 다양한 데이터 소스에서 수치적으로 안정적이고 효과적인가?
주요 결과
- 상보적인 데이터셋을 혼합하면 제로샷 교차 데이터셋 전이에서 모노큘러 깊이 추정을 크게 향상시킨다.
- disparity 공간의 스케일- 및 시프트-불변 손실은 기존 손실보다 우수하며 조합 변형(Lssitrim + Lreg) 포함.
- ImageNet으로 프리트레이닝된 고용량 인코더(특히 ResNeXt-101-WSL)가 상당한 성능 향상을 보인다.
- 강력한 성능을 위해 대규모 보조 작업으로의 프리트레이닝이 결정적이다.
- 파레토 최적 다중 작업 데이터 혼합이 순진한 등분 데이터셋 혼합보다 이익을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.