[論文レビュー] ThermoSplat: Cross-Modal 3D Gaussian Splatting with Feature Modulation and Geometry Decoupling
ThermoSplatはクロスモーダル FiLM変調とモダリティ適応幾何デカップリングを導入し、ハイブリッド明示的-陰影的レンダリングパイプラインでRGB-熱3Dシーン再構成の最先端レンダリングを達成します。
Multi-modal scene reconstruction integrating RGB and thermal infrared data is essential for robust environmental perception across diverse lighting and weather conditions. However, extending 3D Gaussian Splatting (3DGS) to multi-spectral scenarios remains challenging. Current approaches often struggle to fully leverage the complementary information of multi-modal data, typically relying on mechanisms that either tend to neglect cross-modal correlations or leverage shared representations that fail to adaptively handle the complex structural correlations and physical discrepancies between spectrums. To address these limitations, we propose ThermoSplat, a novel framework that enables deep spectral-aware reconstruction through active feature modulation and adaptive geometry decoupling. First, we introduce a Spectrum-Aware Adaptive Modulation that dynamically conditions shared latent features on thermal structural priors, effectively guiding visible texture synthesis with reliable cross-modal geometric cues. Second, to accommodate modality-specific geometric inconsistencies, we propose a Modality-Adaptive Geometric Decoupling scheme that learns independent opacity offsets and executes an independent rasterization pass for the thermal branch. Additionally, a hybrid rendering pipeline is employed to integrate explicit Spherical Harmonics with implicit neural decoding, ensuring both semantic consistency and high-frequency detail preservation. Extensive experiments on the RGBT-Scenes dataset demonstrate that ThermoSplat achieves state-of-the-art rendering quality across both visible and thermal spectrums.
研究の動機と目的
- varying illumination and weather conditions.光・天候条件の中でRGBと熱モダリティ間のギャップを埋める。
- cross-modal feature modulationで不可視テクスチャ合成を熱的構造 Priorsに誘導する。
- モダリティ間で幾何をデカップリングし、スペクトル特有の物理的差異に対処する。
- ハイブリッド明示的-暗黙的レンダリングパイプラインを通じて高周波細部を保持する。
- RGBt-Scenesデータセットで最先端のレンダリング品質を示す。
提案手法
- Latent機能を持つマルチモーダル3Dガウシアンプリミティブでシーンを表現する。
- 熱 priorsで共有潜在特徴を条件づけるためにCross-Modal FiLM Modulationを適用し、可視テクスチャ合成を促進する。
- Learnable thermal opacity offsetと独立レンダリングを備えたモダリティ適応的幾何デカップリングを導入する。
- RGB合成には明示的SHと暗黙的ニューラルデコーディングを組み合わせたハイブリッドレンダリングパイプラインを使用する。
- スペクトル再構成、特徴レベルの監視、熱的空間正規化を含む複合損失で訓練する。
実験結果
リサーチクエスチョン
- RQ1クロスモーダル情報をどのように効果的にモジュレートして、可視テクスチャを赤外線構造 priorsと整合させられるか。
- RQ2モダリティ特有の幾何デカップリングはRGBと熱データ間の深度・遮蔽の不整合を緩和できるか。
- RQ3ハイブリッドSH + ニューラルデコーディングフレームワークは高周波ディテールを保持しつつモダリティ間のセマンティック整合性を維持できるか。
- RQ4ThermoSplatはRGB-熱3D再構成法の既存手法に対してRGBT-Scenes上でどの程度性能向上を示すか。
- RQ5提案された構成要素(FiLM変調、幾何デカップリング、潜在監視)はレンダリング品質にどう寄与するか。
主な発見
| モダリティ | 指標 | 平均 |
|---|---|---|
| RGB | PSNR | 25.23 |
| RGB | SSIM | 0.871 |
| RGB | LPIPS | 0.153 |
| Thermal | PSNR | 26.08 |
| Thermal | SSIM | 0.897 |
| Thermal | LPIPS | 0.101 |
- ThermoSplatはRGBおよび熱モダリティの両方でRGBt-Scenesデータセット上の最先端レンダリング品質を達成した。
- 熱 priorsを活用したクロスモーダル FiLM 変調は可視テクスチャ合成とクロスモーダル整合性を改善した。
- モダリティ適応的幾何デカップリングは熱ブランチで幾何をデカップリングして深度・遮蔽アーティファクトを減少させた。
- ハイブリッドRGBレンダリングは明示的 SH によって高周波ディテールを保持しつつモダリティ間のセマンティック整合性を確保した。
- 定量結果はPSNR、SSIM、LPIPSでベースラインより改善を示し、シーン間でRGB Avg PSNR ~25.23、Thermal Avg PSNR ~26.08、RGB SSIM ~0.871、Thermal SSIM ~0.897、RGB LPIPS ~0.153、Thermal LPIPS ~0.101 の値を報告した。
- アブレーション実験は変調、幾何デカップリング、潜在監視の寄与を確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。