Skip to main content
QUICK REVIEW

[论文解读] ThermoSplat: Cross-Modal 3D Gaussian Splatting with Feature Modulation and Geometry Decoupling

Zhaoqi Su, Shihai Chen|arXiv (Cornell University)|Jan 22, 2026
3D Shape Modeling and Analysis被引用 0
一句话总结

ThermoSplat 引入跨模态 FiLM 特征调制与模态自适应几何解耦,以实现基于混合显式-隐式渲染管线的高保真 RGB-热成像 3D 场景重建。

ABSTRACT

Multi-modal scene reconstruction integrating RGB and thermal infrared data is essential for robust environmental perception across diverse lighting and weather conditions. However, extending 3D Gaussian Splatting (3DGS) to multi-spectral scenarios remains challenging. Current approaches often struggle to fully leverage the complementary information of multi-modal data, typically relying on mechanisms that either tend to neglect cross-modal correlations or leverage shared representations that fail to adaptively handle the complex structural correlations and physical discrepancies between spectrums. To address these limitations, we propose ThermoSplat, a novel framework that enables deep spectral-aware reconstruction through active feature modulation and adaptive geometry decoupling. First, we introduce a Spectrum-Aware Adaptive Modulation that dynamically conditions shared latent features on thermal structural priors, effectively guiding visible texture synthesis with reliable cross-modal geometric cues. Second, to accommodate modality-specific geometric inconsistencies, we propose a Modality-Adaptive Geometric Decoupling scheme that learns independent opacity offsets and executes an independent rasterization pass for the thermal branch. Additionally, a hybrid rendering pipeline is employed to integrate explicit Spherical Harmonics with implicit neural decoding, ensuring both semantic consistency and high-frequency detail preservation. Extensive experiments on the RGBT-Scenes dataset demonstrate that ThermoSplat achieves state-of-the-art rendering quality across both visible and thermal spectrums.

研究动机与目标

  • 在不同照明与天气条件下,弥合 RGB 与热模态在 3D 场景重建上的差距。
  • 利用热结构先验通过跨模态特征调制引导可见纹理合成。
  • 在各模态间解耦几何以应对谱特定物理差异。
  • 通过混合显式-隐式渲染管线保留高频细节。
  • 在 RGBT-Scenes 数据集上展示最先进的渲染质量。

提出的方法

  • 用携带潜在特征的多模态 3D 高斯原子表示场景。
  • 应用跨模态 FiLM 调制,将热先验条件化到共享潜在特征以实现可见纹理合成。
  • 引入具有可学习热不透明偏移量的模态自适应几何解耦,并对热分支进行独立栅格化。
  • 使用结合显式球面调和函数(SH)与隐式神经解码的混合渲染管线进行 RGB 合成。
  • 以复合损失(光谱重建、特征级监督、热空间正则化)进行训练。

实验结果

研究问题

  • RQ1如何有效调制跨模态信息以使可见纹理与红外结构先验对齐?
  • RQ2模态特异的几何解耦是否能缓解 RGB 与热数据之间的深度与遮挡不一致?
  • RQ3混合 SH + 神经解码框架是否在保持跨模态语义一致性的同时保留高频细节?
  • RQ4在 RGBT-Scenes 上,ThermoSplat 相对于现有 RGB-热 3D 重建方法的性能提升有多大?
  • RQ5提出的组件(FiLM 调制、几何解耦、潜在监督)如何共同促进渲染质量?

主要发现

  • ThermoSplat 在 RGBT-Scenes 数据集的 RGB 与热模态上均达到最先进的渲染质量。
  • 利用热先验的跨模态 FiLM 调制提升可见纹理合成与跨模态对齐。
  • 模态自适应几何解耦通过在热分支解耦几何来降低深度/遮挡伪影。
  • 混合 RGB 渲染通过显式 SH 保留高频细节,同时确保跨模态语义一致性。
  • 定量结果在 PSNR、SSIM、LPIPS 上相对于基线在各场景均有提升(如 RGB Avg PSNR ~25.23,Thermal Avg PSNR ~26.08,RGB SSIM ~0.871,Thermal SSIM ~0.897,RGB LPIPS ~0.153,Thermal LPIPS ~0.101)。
  • 消融实验证实调制、几何解耦与潜在监督的贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。