QUICK REVIEW

[논문 리뷰] Thermal Image Refinement with Depth Estimation using Recurrent Networks for Monocular ORB-SLAM3

Hürkan Şahin, Huy Xuan Pham|arXiv (Cornell University)|2026. 03. 16.

Robotics and Sensor-Based Localization인용 수 0

한 줄 요약

논문은 순환 블록(T-RefNet 및 RB/RC)을 포함한 경량 열-깊이 추정 파이프라인을 제시하여 열-만으로 깊이 추정과 저조도 혹은 GPS 부재 환경에서의 강인한 ORB-SLAM3 로컬라이제이션을 가능하게 하며, 방사율 데이터와 비방사율 데이터 모두에서 평가된다.

ABSTRACT

Autonomous navigation in GPS-denied and visually degraded environments remains challenging for unmanned aerial vehicles (UAVs). To this end, we investigate the use of a monocular thermal camera as a standalone sensor on a UAV platform for real-time depth estimation and simultaneous localization and mapping (SLAM). To extract depth information from thermal images, we propose a novel pipeline employing a lightweight supervised network with recurrent blocks (RBs) integrated to capture temporal dependencies, enabling more robust predictions. The network combines lightweight convolutional backbones with a thermal refinement network (T-RefNet) to refine raw thermal inputs and enhance feature visibility. The refined thermal images and predicted depth maps are integrated into ORB-SLAM3, enabling thermal-only localization. Unlike previous methods, the network is trained on a custom non-radiometric dataset, obviating the need for high-cost radiometric thermal cameras. Experimental results on datasets and UAV flights demonstrate competitive depth accuracy and robust SLAM performance under low-light conditions. On the radiometric VIVID++ (indoor-dark) dataset, our method achieves an absolute relative error of approximately 0.06, compared to baselines exceeding 0.11. In our non-radiometric indoor set, baseline errors remain above 0.24, whereas our approach remains below 0.10. Thermal-only ORB-SLAM3 maintains a mean trajectory error under 0.4 m.

연구 동기 및 목표

RGB 데이터가 저조도나 연기 번짐 환경에서 실패할 때 신뢰할 수 있는 자율 주행을 촉진한다.
SLAM을 위한 메트릭 스케일 깊이를 산출하는 경량 열-깊이 파이프라인을 개발한다.
방사율 카메라 없이도 정제된 열 영상과 깊이를 ORB-SLAM3에 직접 통합할 수 있도록 한다.

제안 방법

raw 16비트 열 영상의 정제 및 ORB 특징 추출을 위한 컬러 매핑 이미지를 생성하는 T-RefNet 도입.
다중 규모 특징 추출을 위한 경량 백본(EfficientNet-B0 / MobileNet / ResNet-8)을 사용.
깊이 예측의 시간적 일관성을 보장하기 위해 ConvGRU 또는 저장소 컴퓨팅과 같은 순환 블록을 통합.
스케일-불변 로그 깊이, SSIM, 깊이 순서화, 경계 인식 부드러움을 결합한 복합 손실로 학습.
Dense 깊이 맵과 정제된 열 이미지를 디코딩하여 ORB-SLAM3에 피드로 제공해 메트릭 스케일의 시간적으로 일관된 트래킹을 달성한다.

실험 결과

연구 질문

RQ1단일 카메라 열 영상이 방사율 및 비방사율 조건에서 신뢰할 수 있는 깊이 맵으로 얼마나 잘 변환될 수 있는가?
RQ2정제된 열 입력 및 깊이 우선 정보가 저조도 또는 시각적으로 저하된 상황에서 ORB-SLAM3 로컬라이제이션을 개선할 수 있는가?
RQ3열-깊이 추정의 시간적 일관성에 대해 ConvGRU와 저장소 컴퓨팅의 성능 차이는 무엇인가?
RQ4비방사율 학습이 실제 UAV 실내 실험에 일반화되는가?

주요 결과

모델	AbsRel	RMSE	a1	a2	a3
Shin (T)	0.232	0.740	0.618	0.907	0.987
Shin (MS)	0.166	0.566	0.768	0.967	0.994
Shin (Max.)	0.149	0.517	0.813	0.969	0.994
ZoeDepth	0.165	0.533	0.788	0.944	0.991
DepthAnything-V2	0.112	0.378	0.902	0.970	0.990
Ye et al.	0.145	0.499	0.827	0.969	0.994
MSDFNet	0.139	0.470	0.847	0.980	0.996
Eff-B0 noRB	0.139	0.497	0.839	0.945	0.984
Eff-B0+GRU noTRN	0.079	0.325	0.929	0.980	0.995
ResNet8+GRU	0.079	0.345	0.913	0.970	0.990
MobileNet+GRU	0.072	0.318	0.928	0.977	0.993
Eff-B0+GRU	0.063	0.298	0.940	0.980	0.993
Eff-B0+RC	0.069	0.313	0.931	0.976	0.993
Shin (Max.)	0.262	1.273	0.589	0.890	0.960
ZoeDepth	0.243	1.110	0.605	0.885	0.954
DepthAnything-V2	0.267	1.043	0.571	0.863	0.931
ResNet8+GRU	0.109	0.516	0.886	0.943	0.969
MobileNet+GRU	0.085	0.453	0.911	0.951	0.971
Eff-B0+GRU	0.079	0.424	0.920	0.955	0.971
Eff-B0+RC	0.076	0.439	0.929	0.965	0.981

제안된 RC+Eff-B0 변형은 실내 어두운 VIVID++ 데이터에서 AbsRel 0.063 및 RMSE 0.298을 달성하며 a1=0.940이다.
RC 방식은 약 5만 개의 파라미터를 사용하여 ConvGRU 기반 변형들보다 더 작은 모델에서도 경쟁력 있는 성능을 제공한다.
비방사율 실내 데이터셋에서 EfficientNet-B0를 사용하는 RC는 AbsRel 0.076 및 a1=0.929를 달성하여 비방사율 조건에 대한 강건함을 보여준다.
비방사율 데이터에서 RGB로 학습된 깊이 모델(ZoeDepth, DepthAnything-V2)은 방사율 전처리 없이 성능이 저조하다.
T-RefNet으로 정제된 열 입력은 어둡고 도전적인 환경에서 신뢰할 수 있는 ORB-SLAM3 추적을 가능하게 하며, 여러 시나리오에서 원시 열 및 RGB 기준선보다 우수한 성능을 보인다.
평균 위치 오차는 UAV 복도 비행에서 0.4m 미만으로 남아 열-전용 SLAM 파이프라인의 실용적 강건성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.