[논문 리뷰] NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation
이 논문은 비전 트랜스포머 인코더와 통합된 창(windowed) 신경식 완전 연결 CRF 디코더를 도입하여 단안 깊이 추정의 불완전한 문제를 해결하고 창 내 로컬 완전 연결 CRF를 모델링하며 글로벌 정보를 집계함으로써 KITTI, NYUv2, MatterPort3D에서 최첨단 성능을 달성한다.
Estimating the accurate depth from a single image is challenging since it is inherently ambiguous and ill-posed. While recent works design increasingly complicated and powerful networks to directly regress the depth map, we take the path of CRFs optimization. Due to the expensive computation, CRFs are usually performed between neighborhoods rather than the whole graph. To leverage the potential of fully-connected CRFs, we split the input into windows and perform the FC-CRFs optimization within each window, which reduces the computation complexity and makes FC-CRFs feasible. To better capture the relationships between nodes in the graph, we exploit the multi-head attention mechanism to compute a multi-head potential function, which is fed to the networks to output an optimized depth map. Then we build a bottom-up-top-down structure, where this neural window FC-CRFs module serves as the decoder, and a vision transformer serves as the encoder. The experiments demonstrate that our method significantly improves the performance across all metrics on both the KITTI and NYUv2 datasets, compared to previous methods. Furthermore, the proposed method can be directly applied to panorama images and outperforms all previous panorama methods on the MatterPort3D dataset. Project page: https://weihaosky.github.io/newcrfs.
연구 동기 및 목표
- 모노큘러 깊이 추정의 ill-posed 특성을 실현 가능한 계산 한도 내에서 완전연결 CRFs를 활용하여 해결한다.
- 다중 헤드 어텐션을 통해 장거리 관계를 포착하는 신경 창 FC-CRFs 모듈을 제안한다.
- 비전 트랜스포머 인코더를 갖춘 바텀-업-탑다운 아키텍처의 디코더로 신경 창 FC-CRFs를 통합한다.
- 파노라마를 포함한 KITTI, NYUv2, MatterPort3D 데이터셋에서 깊이 정확도 향상을 실증한다.
- 창 이동(window shifting) 및 글로벌 정보 집계와 같은 설계 선택을 정당화하기 위한 ablation을 제시한다.
제안 방법
- 입력 이미지를 겹치지 않는 창으로 분할하고 각 창 안에서 완전연결 CRFs 최적화를 수행하여 계산을 줄인다.
- CRF의 쌍별 포텐셜을 계산하기 위해 다중 헤드 어텐션을 사용하여 신경 에너지 함수를 가능하게 한다.
- 이미지 특징으로부터 학습된 네트워크로 유니포턴트를 계산하고, QK^T + P의 SoftMax와 깊이 추정의 상호작용으로 쌍별 포텐셜을 모델링한다.
- Swin Transformer와 유사하게 인접 창을 연결하는 창 이동 메커니즘을 포함하고, 상위 레벨에서 글로벌 정보를 주입하기 위해 글로벌 풀링 경로(PPM)를 사용한다.
- Swin-Transformer 인코더를 갖춘 바텀-업-탑다운 네트워크의 디코더로 신경 창 FC-CRFs를 삽입하고, 그 다음 전체 해상도로의 업스케일링 메커니즘을 사용한다.
- 깊이 회귀를 위해 scale-invariant log loss(SILog)로 학습한다.
실험 결과
연구 질문
- RQ1로컬 윈도우 내에서 작동시켜 완전연결 CRFs를 계산적으로 실현 가능하게 만들 수 있는가?
- RQ2신경 기반 어텐션 CRF 포텐셜이 전통적 디코더에 비해 깊이 추정 성능을 개선하는가?
- RQ3창 이동과 글로벌 정보 집계의 도입이 야외/실내 데이터셋, 파노라마를 포함한 깊이 품질을 향상시키는가?
- RQ4추가 데이터 없이 KITTI, NYUv2, MatterPort3D에서 최첨단 성능을 달성할 수 있는가?
주요 결과
| 지표 | KITTI Eigen Split (당사) Abs Rel | KITTI Eigen Split (당사) Sq Rel | KITTI Eigen Split (당사) RMSE | KITTI Eigen Split (당사) RMSE log | KITTI Eigen Split (당사) δ<1.25 | KITTI Eigen Split (당사) δ<1.25^2 | KITTI Eigen Split (당사) δ<1.25^3 |
|---|---|---|---|---|---|---|---|
| Ours | 0.052 | 0.155 | 2.129 | 0.079 | 0.974 | 0.997 | 0.999 |
- KITTI, NYUv2, MatterPort3D의 주요 지표에서 이전 방법들에 비해 상당한 개선(예: Abs Rel, RMSE, delta 정확도)이 나타난다.
- KITTI Eigen split에서 제안 메서드는 Baselines 대비 Abs Rel를 10.3% 감소시키고 RMSE를 9.8% 감소시킨다.
- KITTI official split에서 제안 메서드는 depth prediction online benchmark(SILog)에서 1위를 차지한다.
- NYUv2에서 이 방법은 Abs Rel 및 RMSE를 낮추며 추가 데이터 없이도 강력한 실내 결과를 달성한다.
- MatterPort3D에서 이 방법은 파노라마 깊이 추정에서 최고 성능을 달성하고 추가 데이터(Ours*)로부터의 사전학습의 이점을 얻는다.
- ablation에서 신경 창 FC-CRFs가 UNet 베이스라인보다 우수하였고, 창 이동, PPM 헤드, 다중-head 에너지로 추가 이득이 있었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.