QUICK REVIEW

[論文レビュー] TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis

Zhengpeng Feng, Clement Atzberger|arXiv (Cornell University)|Jun 25, 2025

Image Retrieval and Classification Techniques被引用数 30

ひとこと要約

TESSERA は、自己教師あり学習により、グローバルな Sentinel-1 および Sentinel-2 の時系列から128次元のピクセル単位表現を学習し、多様な下流のEOタスクで高い性能を発揮するグローバルマップを事前計算可能にする。

ABSTRACT

Satellite Earth-observation (EO) time series in the optical and microwave ranges of the electromagnetic spectrum are often irregular due to orbital patterns and cloud obstruction. Compositing addresses these issues but loses information with respect to vegetation phenology, which is critical for many downstream tasks. Instead, we present TESSERA, a pixel-wise foundation model for multi-modal (Sentinel-1/2) EO time series that learns robust, label-efficient embeddings. During model training, TESSERA uses Barlow Twins and sparse random temporal sampling to enforce invariance to the selection of valid observations. We employ two key regularizers: global shuffling to decorrelate spatial neighborhoods and mix-based regulation to improve invariance under extreme sparsity. We find that for diverse classification, segmentation, and regression tasks, TESSERA embeddings deliver state-of-the-art accuracy with high label efficiency, often requiring only a small task head and minimal computation. To democratize access, adhere to FAIR principles, and simplify use, we release global, annual, 10m, pixel-wise int8 embeddings together with open weights/code and lightweight adaptation heads, thus providing practical tooling for large-scale retrieval and inference at planetary scale. The model training/inference code, downstream task code, and pre-generated embeddings can be accessed at https://github.com/ucam-eo

研究の動機と目的

データ欠如とラベリングの不足の中で、地球観測における高解像かつ時系列に富んだ表現の必要性を動機づける。
光学系と SAR 時系列を統合する自己教師ありの二重エンコーダ基盤モデルを提案する。
グローバルな 10m 解像度の年次表現（2017–2024）を生成し、固定埋め込みを用いて下流タスクを可能にする。
作物分類、樹冠高推定、焼失面積検出、バイオマス推定、炭素市場指標の分野で最先端の性能を示す。
実務家の敷居を下げるためのオープンソースアクセスとモデルをデータとして扱うアプローチを提供する。

提案手法

ラベルなしの Sentinel-1 SAR および Sentinel-2 MSI の時系列を、10m ピクセルごとにモダリティ別の d-pixel（タイムステップ x チャンネル）へ処理する。
SAR VV/VH 用と MSI スペクトル用の2つの並列 Transformer エンコーダを用い、DOY ベースの時系列エンコーディングとアテンションプーリング層で、モダリティごとに128次元の表現を生成する。
MLP を用いてモダリティ埋め込みを融合し、ピクセルごとに128次元の融合表現を形成する。
大規模なプロジェクターネットワークで融合表現を16,384次元へ拡張する。
投影特徴の相関に基づく、改良版Barlow Twins損失（L_BT + L_MIX）で訓練し、年次観測のまばらな時系列サンプリングによる2つの拡張ビューを用いる。
推論時にはエンコーダを凍結し、2017–2024 の年次 10m 表現を生成し、グローバル表現マップを作成する。

実験結果

リサーチクエスチョン

RQ1Sentinel-1 と Sentinel-2 からの自己教師ありで多モーダルな時系列埋め込みは、さまざまな EO タスクにおいて従来の特徴量設計や既存のファウンデーションモデルを上回るか。
RQ2グローバルな 10m 年次表現は、作物分類、樹冠高、焼失面積推定、バイオマス推定へ一般化するか、特に低ラベルの状況下で。
RQ3明示的な前処理なしで、学習済み表現は時系列の動的変化や撹乱（例: 火災）をどれだけ正確に捉えるか。
RQ4オープンソースの、事前計算された表現マップのアプローチは、EO 研究の普及と再現性を促進するか。

主な発見

TESSERA 表現は、従来のベースラインおよび他のファウンデーションモデルと比較して下流タスクで最先端の性能を発揮する。
オーストリアの INVEKOS データセットでの作物タイプ分類では、単純な MLP を用いた TESSERA が、データレジームの大小を問わず Random Forest および PRESTO 埋め込みを上回り、ワンショット学習も含む。
熱帯ダヌムバレーにおける樹冠高推定は、TESSERA が R^2 = 0.66、RMSE = 8.88 m、バイアス = -0.62 m を達成し、グローバルおよび地域の CHM プロダクトを上回る。
焼失領域分析は、TESSERA 埋め込みが焼失領域と非焼失領域を分離し、UMAP 投影で火災の時期と Severity を区別することを示す。
複数のタスクにおいて、限られたラベルデータ下でも TESSERA は堅牢で、しばしば特注モデルを上回るか同等である。
このモデルは事前計算された 10m 表現を用いた「Model-as-Data」パラダイムをサポートし、エンドユーザーの前処理ニーズを低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。