QUICK REVIEW

[論文レビュー] EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

Nils Lehmann, Yi Wang|arXiv (Cornell University)|Feb 12, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

EO-VAEはダイナミックハイパーネットワークを備えた単一のマルチモーダル変分オートエンコーダを導入し、多スペクトル地球観測データをトークナイズして再構成。TerraMindトークナイザより再構成性能が向上し、潜在拡散タスクの効率的な実行を可能にする。

ABSTRACT

State-of-the-art generative image and video models rely heavily on tokenizers that compress high-dimensional inputs into more efficient latent representations. While this paradigm has revolutionized RGB generation, Earth observation (EO) data presents unique challenges due to diverse sensor specifications and variable spectral channels. We propose EO-VAE, a multi-sensor variational autoencoder designed to serve as a foundational tokenizer for the EO domain. Unlike prior approaches that train separate tokenizers for each modality, EO-VAE utilizes a single model to encode and reconstruct flexible channel combinations via dynamic hypernetworks. Our experiments on the TerraMesh dataset demonstrate that EO-VAE achieves superior reconstruction fidelity compared to the TerraMind tokenizers, establishing a robust baseline for latent generative modeling in remote sensing.

研究の動機と目的

複数センサーEOデータの異なるチャンネル構成に対応できる単一トークナイザーを動機づける。
チャンネル波長に conditioned なダイナミックハイパーネットワークでEO-VAEを構築する。
TerraMeshデータでTerraMindトークナイザより再構成忠実度が優れることを実証する。
下流の生成タスクの凍結済み潜在トークナイザーとしてEO-VAEを示し、効率向上を定量化する。

提案手法

入力および出力層でチャンネル波長に条件付けられたダイナミックハイパーネットワークを備えた基盤アーキテクチャとしてFlux.2 Autoencoderを採用。
動的層への教師Flux.2からのウェイト蒸留を適用して収束を加速。
ピクセル単位の再構成誤差を用いてマルチモーダルのTerraMeshデータセット上でエンドツーエンドをファインチューニング。
忠実度と知覚品質のバランスを取るため、Charbonier損失とマルチスケール構造相似性損失の組み合わせで訓練。
再構成の評価にはRMSE、PSNR、SSIM、SAM、NDVI-MAEを用い、スペクトル整合性を評価。

Figure 1: EO-VAE Architecture and Training Regime. The first and last convolutional layer of the Flux.2 Autoencoder architecture are replaced with dynamic convolution hypernetworks (Xiong et al. , 2024 ) . After weight distillation of the frozen Flux.2 convolutional weights, we finetune end-to-end o

実験結果

リサーチクエスチョン

RQ1単一のオートエンコーダトークナイザは、多様なEOセンサー間で可変チャンネル組み合わせを効果的に符号化・再構成できるか。
RQ2チャンネル波長に基づく動的条件付けは、モダリティ固有のトークナイザと比べて多スペクトル再構成忠実度を向上させるか。
RQ3EO-VAEは多センサーEOデータの下流拡散ベース超解像タスクの凍結済み潜在空間として実用的か。

主な発見

モデル	RMSE (S1RTC)	PSNR (S1RTC)	SSIM (S1RTC)	SAM (S1RTC)	RMSE (S2L2A)	PSNR (S2L2A)	SSIM (S2L2A)	SAM (S2L2A)	NDVI-MAE (S2L2A)
EO-VAE	0.1401	37.23	0.9372	0.1601	0.0686	42.80	0.9720	0.0842	0.0410
TerraMind	0.6711	23.65	0.2803	0.7285	0.7004	22.95	0.7543	0.3568	0.1403

EO-VAEはS1RTCおよびS2L2AでTerraMindトークナイザをRMSE、PSNR、SSIM、SAMの全指標で大きく上回る。
S2L2AではEO-VAEがPSNR 42.80 dB、TerraMindの22.95 dBを上回り、NDVI-MAEは3.5倍低減。
EO-VAEは multispectral 入力を単一モデルで扱いながら再構成品質において優位性を発揮。
潜在拡散超解像ではEO-VAEはRGB Flux.2 VAEとRGB+NIRバンドで同等の性能を示し、ピクセル空間拡散を上回る。
EO-VAEを用いた潜在拡散はピクセル空間拡散より推論効率が約18倍高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。