[논문 리뷰] Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth
논문은 글로벌-로컬 경로 네트워크를 도입하여 단안 깊이 추정에서 계층 트랜스포머 인코더와 선택적 특징 융합을 갖춘 경량 디코더를 통한 글로벌-로컬 컨텍스트를 활용하고, 수직 CutDepth 데이터 증강을 제시하며 NYU Depth V2에서 최첨단 성능과 강한 교차 데이터셋 일반화를 달성한다.
Depth estimation from a single image is an important task that can be applied to various fields in computer vision, and has grown rapidly with the development of convolutional neural networks. In this paper, we propose a novel structure and training strategy for monocular depth estimation to further improve the prediction accuracy of the network. We deploy a hierarchical transformer encoder to capture and convey the global context, and design a lightweight yet powerful decoder to generate an estimated depth map while considering local connectivity. By constructing connected paths between multi-scale local features and the global decoding stream with our proposed selective feature fusion module, the network can integrate both representations and recover fine details. In addition, the proposed decoder shows better performance than the previously proposed decoders, with considerably less computational complexity. Furthermore, we improve the depth-specific augmentation method by utilizing an important observation in depth estimation to enhance the model. Our network achieves state-of-the-art performance over the challenging depth dataset NYU Depth V2. Extensive experiments have been conducted to validate and show the effectiveness of the proposed approach. Finally, our model shows better generalisation ability and robustness than other comparative models.
연구 동기 및 목표
- 글로벌 컨텍스트와 로컬 디테일을 포착하여 단안 깊이 추정을 개선하려는 동기 부여.
- 계층형 트랜스포머 인코더와 효율적인 디코더를 결합한 글로벌-로컬 경로 네트워크를 개발한다.
- 저복잡도의 다중 스케일 로컬 및 글로벌 특징 융합을 가능하게 하는 선택적 특징 융합 모듈(SFF)을 제안한다.
- 수직 구조 단서를 활용하기 위한 수직 CutDepth를 포함한 깊이 특화 데이터 증강으로 학습을 향상시킨다.
- NYU Depth V2에서 최첨단 성능과 SUN RGB-D로의 일반화 및 강건성 향상을 입증한다.
제안 방법
- 글로벌 컨텍스트와 다중 스케일 특징을 모델링하기 위해 계층형 트랜스포머 인코더를 사용한다.
- 병목 특징을 최소한의 합성곱 계층과 양선형 업샘플링으로 복원하는 경량 디코더를 설계한다.
- 로컬 및 글로벌 특징을 적응적으로 융합하는 주의(attention) 기반 선택적 특징 융합 모듈(SFF)을 도입한다.
- 수평으로 잘라 수직 구조 정보를 보존하는 깊이 인지적 증강인 수직 CutDepth를 채택한다.
- 깊이 예측을 최적화하기 위해 스케일 불변 로그 깊이 손실로 학습한다.
실험 결과
연구 질문
- RQ1글로벌-로컬 경로 아키텍처가 장거리 컨텍스트와 로컬 디테일을 효과적으로 결합하여 단안 깊이 추정을 개선할 수 있는가?
- RQ2제안된 선택적 특징 융합 모듈이 일반 디코더에 비해 계산 비용을 낮추면서 더 나은 깊이 맵을 제공하는가?
- RQ3수직 CutDepth 증강이 수직 구조 신호를 활용하여 깊이 추정을 개선하는가?
- RQ4제안 방식이 다른 내부 데이터셋(SUN RGB-D 등)으로 일반화되고 일반적인 이미지 손상에 얼마나 강인한가?
주요 결과
| 방법 | 매개변수 (M) | delta1↑ | delta2↑ | delta3↑ | AbsRel↓ | RMSE↓ | log10↓ |
|---|---|---|---|---|---|---|---|
| Eigen et al. (2014) | 141 | 0.769 | 0.950 | 0.988 | 0.158 | 0.641 | - |
| Fu et al. (2018) | 110 | 0.828 | 0.965 | 0.992 | 0.115 | 0.509 | 0.051 |
| Yin et al. (2019) | 114 | 0.875 | 0.976 | 0.994 | 0.108 | 0.416 | 0.048 |
| DAV (Huynh et al. 2020) | 25 | 0.882 | 0.980 | 0.996 | 0.108 | 0.412 | - |
| BTS (Lee et al. 2019) | 47 | 0.885 | 0.978 | 0.994 | 0.110 | 0.392 | 0.047 |
| AdaBins (Bhat et al. 2021) | 78 | 0.903 | 0.984 | 0.997 | 0.103 | 0.364 | 0.044 |
| DPT* (Ranftl et al. 2021) | 123 | 0.904 | 0.988 | 0.998 | 0.110 | 0.357 | 0.045 |
| Ours | 62 | 0.915 | 0.988 | 0.997 | 0.098 | 0.344 | 0.042 |
- 단일 인코더만 사용하고 대형 외부 데이터셋에서의 추가 사전학습 없이도 NYU Depth V2에서 최첨단 또는 경쟁력 있는 성능을 달성한다.
- SFF를 갖춘 컴팩트 디코더가 디컨볼루션이나 UNet 스타일 디코더 대비 우수한 성능을 보이며 매개변수 수가 훨씬 적다(일부 구성에서 0.66M).
- 수직 CutDepth는 Baseline CutDepth 대비 성능을 향상시키며, 최적의 결과는 p=0.75에서 나타난다.
- NYU Depth V2에서 제안된 방법은 delta1=0.915, delta2=0.988, delta3=0.997, AbsRel=0.098, RMSE=0.344, log10=0.042, 62M 매개변수를 사용한다.
- 또한 미세튜닝 없이 SUN RGB-D로의 강한 일반화와 잡손상에 대한 강건성을 보인다.
- 광범위한 어블레이션으로 디코더 설계 및 수직 CutDepth 기여가 성능 향상의 핵심임을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.