[论文解读] EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data
EO-VAE 引入一个具有动态超网络的单一多模态变分自编码器,用于对多光谱地球观测数据进行标记化与重建,在重建方面优于 TerraMind 标记器,并实现高效的潜在扩散任务。
State-of-the-art generative image and video models rely heavily on tokenizers that compress high-dimensional inputs into more efficient latent representations. While this paradigm has revolutionized RGB generation, Earth observation (EO) data presents unique challenges due to diverse sensor specifications and variable spectral channels. We propose EO-VAE, a multi-sensor variational autoencoder designed to serve as a foundational tokenizer for the EO domain. Unlike prior approaches that train separate tokenizers for each modality, EO-VAE utilizes a single model to encode and reconstruct flexible channel combinations via dynamic hypernetworks. Our experiments on the TerraMesh dataset demonstrate that EO-VAE achieves superior reconstruction fidelity compared to the TerraMind tokenizers, establishing a robust baseline for latent generative modeling in remote sensing.
研究动机与目标
- 为多传感器 EO 数据建立单一标记器以处理不同的通道配置。
- 开发 EO-VAE,使其在输入/输出层上以通道波长为条件实现动态超网络。
- 在 TerraMesh 数据上展示相对于 TerraMind 标记器的重建保真度优势。
- 展示 EO-VAE 作为下游生成任务的冻结潜在标记器,并量化效率提升。
提出的方法
- 采用 Flux.2 Autoencoder 作为基础架构,在输入和输出层引入以通道波长为条件的动态超网络。
- 从教师 Flux.2 向动态层进行权重蒸馏以加速收敛。
- 在多模态 TerraMesh 数据集上端到端微调,使用像素级重建损失。
- 以 Charbonier 损失与多尺度结构相似性损失相结合来训练,平衡保真度与感知质量。
- 使用 RMSE、PSNR、SSIM、SAM 与 NDVI-MAE 来评估重建以评估光谱完整性。

实验结果
研究问题
- RQ1单个自编码器标记器是否能有效对不同 EO 传感器的可变通道组合进行编码与重建?
- RQ2关于通道波长的动态条件是否比模态特定标记器更能提升多光谱重建保真度?
- RQ3EO-VAE 是否是多传感器 EO 数据上基于潜在扩散的超分辨率任务的可行冻结潜在空间?
主要发现
| Model | RMSE (S1RTC) | PSNR (S1RTC) | SSIM (S1RTC) | SAM (S1RTC) | RMSE (S2L2A) | PSNR (S2L2A) | SSIM (S2L2A) | SAM (S2L2A) | NDVI-MAE (S2L2A) |
|---|---|---|---|---|---|---|---|---|---|
| EO-VAE | 0.1401 | 37.23 | 0.9372 | 0.1601 | 0.0686 | 42.80 | 0.9720 | 0.0842 | 0.0410 |
| TerraMind | 0.6711 | 23.65 | 0.2803 | 0.7285 | 0.7004 | 22.95 | 0.7543 | 0.3568 | 0.1403 |
- EO-VAE 在 S1RTC 和 S2L2A 上在 RMSE、PSNR、SSIM 与 SAM 指标上显著优于 TerraMind 标记器。
- 在 S2L2A 上,EO-VAE 的 PSNR 达到 42.80 dB,而 TerraMind 为 22.95 dB,NDVI-MAE 降低了 3.5 倍。
- EO-VAE 在处理多光谱输入时,能以单一模型实现更优的重建质量。
- 在潜在扩散超分辨率中,EO-VAE 的 RGB+NIR 波段表现与 RGB Flux.2 VAE 相当,并在像素空间扩散方面具有更好表现。
- 基于 EO-VAE 的潜在扩散在推断效率方面比像素空间扩散大约快 18 倍。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。