[论文解读] Thermal Image Refinement with Depth Estimation using Recurrent Networks for Monocular ORB-SLAM3
本论文提出一个轻量级的热图到深度估计管道,含有循环块(T-RefNet 与 RB/RC),实现热像的深度估计与在低光或无GPS场景中的稳健的 ORB-SLAM3 定位,评估在辐射性与非辐射性数据上。
Autonomous navigation in GPS-denied and visually degraded environments remains challenging for unmanned aerial vehicles (UAVs). To this end, we investigate the use of a monocular thermal camera as a standalone sensor on a UAV platform for real-time depth estimation and simultaneous localization and mapping (SLAM). To extract depth information from thermal images, we propose a novel pipeline employing a lightweight supervised network with recurrent blocks (RBs) integrated to capture temporal dependencies, enabling more robust predictions. The network combines lightweight convolutional backbones with a thermal refinement network (T-RefNet) to refine raw thermal inputs and enhance feature visibility. The refined thermal images and predicted depth maps are integrated into ORB-SLAM3, enabling thermal-only localization. Unlike previous methods, the network is trained on a custom non-radiometric dataset, obviating the need for high-cost radiometric thermal cameras. Experimental results on datasets and UAV flights demonstrate competitive depth accuracy and robust SLAM performance under low-light conditions. On the radiometric VIVID++ (indoor-dark) dataset, our method achieves an absolute relative error of approximately 0.06, compared to baselines exceeding 0.11. In our non-radiometric indoor set, baseline errors remain above 0.24, whereas our approach remains below 0.10. Thermal-only ORB-SLAM3 maintains a mean trajectory error under 0.4 m.
研究动机与目标
- 在RGB数据在低光或烟雾环境中失效时,推动可靠的自主导航。
- 开发一个轻量级的热图到深度管道,获得用于 SLAM 的度量尺度深度。
- 实现将 refined 热图像和深度直接集成到 ORB-SLAM3,而不需要辐射相机。
提出的方法
- 引入 T-RefNet 来 refine 原始 16-bit 热像并生成用于 ORB 特征提取的颜色映射图像。
- 使用轻量级骨干网络(EfficientNet-B0 / MobileNet / ResNet-8)提取多尺度特征。
- 加入循环块(ConvGRU 或 reservoir computing)以在深度预测中强制时序一致性。
- 用一个组合损失训练,包括尺度不变对数深度、SSIM、深度排序和边缘感知光滑项。
- 解码为密集深度图和 refined 热像,供 ORB-SLAM3 使用,以获得度量尺度、时序一致的跟踪。
实验结果
研究问题
- RQ1单目热图在辐射性和非辐射性条件下能多好地转化为可靠的深度图?
- RQ2 refined 热输入和深度先验是否能在低光或视觉退化场景中提升 ORB-SLAM3 的定位?
- RQ3ConvGRU 与 reservoir computing 在热到深度估计中的时序一致性对性能的权衡如何?
- RQ4非辐射性训练是否能泛化到真实世界的 UAV 室内实验?
主要发现
- 在室内黑暗的 VIVID++ 数据上,提出的 RC+Eff-B0 变体实现 AbsRel 0.063 和 RMSE 0.298,a1=0.940。
- RC 方法大约使用 5 万参数,提供与基于 ConvGRU 的变体相比竞争力的性能,同时模型更小。
- 在非辐射性室内数据集上,RC 与 EfficientNet-B0 的组合得到 AbsRel 0.076 和 a1=0.929,展示对非辐射性条件的鲁棒性。
- 在非辐射性数据上,RGB 训练的深度模型(ZoeDepth、DepthAnything-V2)在没有辐射预处理时表现较差。
- 通过 T-RefNet refine 的热输入在黑暗和具有挑战性的环境中实现对 ORB-SLAM3 的可靠跟踪,在若干情景中优于原始热像和 RGB 基线。
- 在 UAV 走廊飞行中的平均定位误差仍低于 0.4 m,表明热图像独立 SLAM 管道的实际鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。