[논문 리뷰] Thermal Image Refinement with Depth Estimation using Recurrent Networks for Monocular ORB-SLAM3
논문은 순환 블록(T-RefNet 및 RB/RC)을 포함한 경량 열-깊이 추정 파이프라인을 제시하여 열-만으로 깊이 추정과 저조도 혹은 GPS 부재 환경에서의 강인한 ORB-SLAM3 로컬라이제이션을 가능하게 하며, 방사율 데이터와 비방사율 데이터 모두에서 평가된다.
Autonomous navigation in GPS-denied and visually degraded environments remains challenging for unmanned aerial vehicles (UAVs). To this end, we investigate the use of a monocular thermal camera as a standalone sensor on a UAV platform for real-time depth estimation and simultaneous localization and mapping (SLAM). To extract depth information from thermal images, we propose a novel pipeline employing a lightweight supervised network with recurrent blocks (RBs) integrated to capture temporal dependencies, enabling more robust predictions. The network combines lightweight convolutional backbones with a thermal refinement network (T-RefNet) to refine raw thermal inputs and enhance feature visibility. The refined thermal images and predicted depth maps are integrated into ORB-SLAM3, enabling thermal-only localization. Unlike previous methods, the network is trained on a custom non-radiometric dataset, obviating the need for high-cost radiometric thermal cameras. Experimental results on datasets and UAV flights demonstrate competitive depth accuracy and robust SLAM performance under low-light conditions. On the radiometric VIVID++ (indoor-dark) dataset, our method achieves an absolute relative error of approximately 0.06, compared to baselines exceeding 0.11. In our non-radiometric indoor set, baseline errors remain above 0.24, whereas our approach remains below 0.10. Thermal-only ORB-SLAM3 maintains a mean trajectory error under 0.4 m.
연구 동기 및 목표
- RGB 데이터가 저조도나 연기 번짐 환경에서 실패할 때 신뢰할 수 있는 자율 주행을 촉진한다.
- SLAM을 위한 메트릭 스케일 깊이를 산출하는 경량 열-깊이 파이프라인을 개발한다.
- 방사율 카메라 없이도 정제된 열 영상과 깊이를 ORB-SLAM3에 직접 통합할 수 있도록 한다.
제안 방법
- raw 16비트 열 영상의 정제 및 ORB 특징 추출을 위한 컬러 매핑 이미지를 생성하는 T-RefNet 도입.
- 다중 규모 특징 추출을 위한 경량 백본(EfficientNet-B0 / MobileNet / ResNet-8)을 사용.
- 깊이 예측의 시간적 일관성을 보장하기 위해 ConvGRU 또는 저장소 컴퓨팅과 같은 순환 블록을 통합.
- 스케일-불변 로그 깊이, SSIM, 깊이 순서화, 경계 인식 부드러움을 결합한 복합 손실로 학습.
- Dense 깊이 맵과 정제된 열 이미지를 디코딩하여 ORB-SLAM3에 피드로 제공해 메트릭 스케일의 시간적으로 일관된 트래킹을 달성한다.
실험 결과
연구 질문
- RQ1단일 카메라 열 영상이 방사율 및 비방사율 조건에서 신뢰할 수 있는 깊이 맵으로 얼마나 잘 변환될 수 있는가?
- RQ2정제된 열 입력 및 깊이 우선 정보가 저조도 또는 시각적으로 저하된 상황에서 ORB-SLAM3 로컬라이제이션을 개선할 수 있는가?
- RQ3열-깊이 추정의 시간적 일관성에 대해 ConvGRU와 저장소 컴퓨팅의 성능 차이는 무엇인가?
- RQ4비방사율 학습이 실제 UAV 실내 실험에 일반화되는가?
주요 결과
| 모델 | AbsRel | RMSE | a1 | a2 | a3 |
|---|---|---|---|---|---|
| Shin (T) | 0.232 | 0.740 | 0.618 | 0.907 | 0.987 |
| Shin (MS) | 0.166 | 0.566 | 0.768 | 0.967 | 0.994 |
| Shin (Max.) | 0.149 | 0.517 | 0.813 | 0.969 | 0.994 |
| ZoeDepth | 0.165 | 0.533 | 0.788 | 0.944 | 0.991 |
| DepthAnything-V2 | 0.112 | 0.378 | 0.902 | 0.970 | 0.990 |
| Ye et al. | 0.145 | 0.499 | 0.827 | 0.969 | 0.994 |
| MSDFNet | 0.139 | 0.470 | 0.847 | 0.980 | 0.996 |
| Eff-B0 noRB | 0.139 | 0.497 | 0.839 | 0.945 | 0.984 |
| Eff-B0+GRU noTRN | 0.079 | 0.325 | 0.929 | 0.980 | 0.995 |
| ResNet8+GRU | 0.079 | 0.345 | 0.913 | 0.970 | 0.990 |
| MobileNet+GRU | 0.072 | 0.318 | 0.928 | 0.977 | 0.993 |
| Eff-B0+GRU | 0.063 | 0.298 | 0.940 | 0.980 | 0.993 |
| Eff-B0+RC | 0.069 | 0.313 | 0.931 | 0.976 | 0.993 |
| Shin (Max.) | 0.262 | 1.273 | 0.589 | 0.890 | 0.960 |
| ZoeDepth | 0.243 | 1.110 | 0.605 | 0.885 | 0.954 |
| DepthAnything-V2 | 0.267 | 1.043 | 0.571 | 0.863 | 0.931 |
| ResNet8+GRU | 0.109 | 0.516 | 0.886 | 0.943 | 0.969 |
| MobileNet+GRU | 0.085 | 0.453 | 0.911 | 0.951 | 0.971 |
| Eff-B0+GRU | 0.079 | 0.424 | 0.920 | 0.955 | 0.971 |
| Eff-B0+RC | 0.076 | 0.439 | 0.929 | 0.965 | 0.981 |
- 제안된 RC+Eff-B0 변형은 실내 어두운 VIVID++ 데이터에서 AbsRel 0.063 및 RMSE 0.298을 달성하며 a1=0.940이다.
- RC 방식은 약 5만 개의 파라미터를 사용하여 ConvGRU 기반 변형들보다 더 작은 모델에서도 경쟁력 있는 성능을 제공한다.
- 비방사율 실내 데이터셋에서 EfficientNet-B0를 사용하는 RC는 AbsRel 0.076 및 a1=0.929를 달성하여 비방사율 조건에 대한 강건함을 보여준다.
- 비방사율 데이터에서 RGB로 학습된 깊이 모델(ZoeDepth, DepthAnything-V2)은 방사율 전처리 없이 성능이 저조하다.
- T-RefNet으로 정제된 열 입력은 어둡고 도전적인 환경에서 신뢰할 수 있는 ORB-SLAM3 추적을 가능하게 하며, 여러 시나리오에서 원시 열 및 RGB 기준선보다 우수한 성능을 보인다.
- 평균 위치 오차는 UAV 복도 비행에서 0.4m 미만으로 남아 열-전용 SLAM 파이프라인의 실용적 강건성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.