Skip to main content
QUICK REVIEW

[논문 리뷰] Thermal Image Refinement with Depth Estimation using Recurrent Networks for Monocular ORB-SLAM3

Hürkan Şahin, Huy Xuan Pham|arXiv (Cornell University)|2026. 03. 16.
Robotics and Sensor-Based Localization인용 수 0
한 줄 요약

논문은 순환 블록(T-RefNet 및 RB/RC)을 포함한 경량 열-깊이 추정 파이프라인을 제시하여 열-만으로 깊이 추정과 저조도 혹은 GPS 부재 환경에서의 강인한 ORB-SLAM3 로컬라이제이션을 가능하게 하며, 방사율 데이터와 비방사율 데이터 모두에서 평가된다.

ABSTRACT

Autonomous navigation in GPS-denied and visually degraded environments remains challenging for unmanned aerial vehicles (UAVs). To this end, we investigate the use of a monocular thermal camera as a standalone sensor on a UAV platform for real-time depth estimation and simultaneous localization and mapping (SLAM). To extract depth information from thermal images, we propose a novel pipeline employing a lightweight supervised network with recurrent blocks (RBs) integrated to capture temporal dependencies, enabling more robust predictions. The network combines lightweight convolutional backbones with a thermal refinement network (T-RefNet) to refine raw thermal inputs and enhance feature visibility. The refined thermal images and predicted depth maps are integrated into ORB-SLAM3, enabling thermal-only localization. Unlike previous methods, the network is trained on a custom non-radiometric dataset, obviating the need for high-cost radiometric thermal cameras. Experimental results on datasets and UAV flights demonstrate competitive depth accuracy and robust SLAM performance under low-light conditions. On the radiometric VIVID++ (indoor-dark) dataset, our method achieves an absolute relative error of approximately 0.06, compared to baselines exceeding 0.11. In our non-radiometric indoor set, baseline errors remain above 0.24, whereas our approach remains below 0.10. Thermal-only ORB-SLAM3 maintains a mean trajectory error under 0.4 m.

연구 동기 및 목표

  • RGB 데이터가 저조도나 연기 번짐 환경에서 실패할 때 신뢰할 수 있는 자율 주행을 촉진한다.
  • SLAM을 위한 메트릭 스케일 깊이를 산출하는 경량 열-깊이 파이프라인을 개발한다.
  • 방사율 카메라 없이도 정제된 열 영상과 깊이를 ORB-SLAM3에 직접 통합할 수 있도록 한다.

제안 방법

  • raw 16비트 열 영상의 정제 및 ORB 특징 추출을 위한 컬러 매핑 이미지를 생성하는 T-RefNet 도입.
  • 다중 규모 특징 추출을 위한 경량 백본(EfficientNet-B0 / MobileNet / ResNet-8)을 사용.
  • 깊이 예측의 시간적 일관성을 보장하기 위해 ConvGRU 또는 저장소 컴퓨팅과 같은 순환 블록을 통합.
  • 스케일-불변 로그 깊이, SSIM, 깊이 순서화, 경계 인식 부드러움을 결합한 복합 손실로 학습.
  • Dense 깊이 맵과 정제된 열 이미지를 디코딩하여 ORB-SLAM3에 피드로 제공해 메트릭 스케일의 시간적으로 일관된 트래킹을 달성한다.

실험 결과

연구 질문

  • RQ1단일 카메라 열 영상이 방사율 및 비방사율 조건에서 신뢰할 수 있는 깊이 맵으로 얼마나 잘 변환될 수 있는가?
  • RQ2정제된 열 입력 및 깊이 우선 정보가 저조도 또는 시각적으로 저하된 상황에서 ORB-SLAM3 로컬라이제이션을 개선할 수 있는가?
  • RQ3열-깊이 추정의 시간적 일관성에 대해 ConvGRU와 저장소 컴퓨팅의 성능 차이는 무엇인가?
  • RQ4비방사율 학습이 실제 UAV 실내 실험에 일반화되는가?

주요 결과

모델AbsRelRMSEa1a2a3
Shin (T)0.2320.7400.6180.9070.987
Shin (MS)0.1660.5660.7680.9670.994
Shin (Max.)0.1490.5170.8130.9690.994
ZoeDepth0.1650.5330.7880.9440.991
DepthAnything-V20.1120.3780.9020.9700.990
Ye et al.0.1450.4990.8270.9690.994
MSDFNet0.1390.4700.8470.9800.996
Eff-B0 noRB0.1390.4970.8390.9450.984
Eff-B0+GRU noTRN0.0790.3250.9290.9800.995
ResNet8+GRU0.0790.3450.9130.9700.990
MobileNet+GRU0.0720.3180.9280.9770.993
Eff-B0+GRU0.0630.2980.9400.9800.993
Eff-B0+RC0.0690.3130.9310.9760.993
Shin (Max.)0.2621.2730.5890.8900.960
ZoeDepth0.2431.1100.6050.8850.954
DepthAnything-V20.2671.0430.5710.8630.931
ResNet8+GRU0.1090.5160.8860.9430.969
MobileNet+GRU0.0850.4530.9110.9510.971
Eff-B0+GRU0.0790.4240.9200.9550.971
Eff-B0+RC0.0760.4390.9290.9650.981
  • 제안된 RC+Eff-B0 변형은 실내 어두운 VIVID++ 데이터에서 AbsRel 0.063 및 RMSE 0.298을 달성하며 a1=0.940이다.
  • RC 방식은 약 5만 개의 파라미터를 사용하여 ConvGRU 기반 변형들보다 더 작은 모델에서도 경쟁력 있는 성능을 제공한다.
  • 비방사율 실내 데이터셋에서 EfficientNet-B0를 사용하는 RC는 AbsRel 0.076 및 a1=0.929를 달성하여 비방사율 조건에 대한 강건함을 보여준다.
  • 비방사율 데이터에서 RGB로 학습된 깊이 모델(ZoeDepth, DepthAnything-V2)은 방사율 전처리 없이 성능이 저조하다.
  • T-RefNet으로 정제된 열 입력은 어둡고 도전적인 환경에서 신뢰할 수 있는 ORB-SLAM3 추적을 가능하게 하며, 여러 시나리오에서 원시 열 및 RGB 기준선보다 우수한 성능을 보인다.
  • 평균 위치 오차는 UAV 복도 비행에서 0.4m 미만으로 남아 열-전용 SLAM 파이프라인의 실용적 강건성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.