Skip to main content
QUICK REVIEW

[論文レビュー] From Pixels to Patches: Pooling Strategies for Earth Embeddings

Isaac Corley, Caleb Robinson|arXiv (Cornell University)|Mar 2, 2026
Remote-Sensing Image Classification被引用数 2
ひとこと要約

この論文は EuroSAT-Embed を公開し、ピクセルレベルの地理空間埋め込みをパッチレベル表現に集約する11の学習不要プーリング手法と2つのベースラインをベンチマークし、分布統計量が平均プーリングを超える空間一般化を3つの埋め込みモデルで示している。

ABSTRACT

As geospatial foundation models shift from patch-level to pixel-level embeddings, practitioners must aggregate thousands of pixel vectors into patch representations that preserve class-discriminative signal while matching downstream label resolution. The default choice, mean pooling, discards within-patch variability and can drop accuracy by more than 10% under spatial shift. To evaluate this effect, we introduce EuroSAT-Embed: 81,000 embedding GeoTIFFs derived from three foundation models: AlphaEarth, OlmoEarth, and Tessera. We benchmark 11 training-free and 2 parametric pooling methods under both random and geographically disjoint test splits. Our results show that richer pooling schemes reduce the geographic generalization gap by up to 40% relative to mean pooling and increases accuracy by up to 5% on spatial splits. We recommend Generalized Mean Pooling (GeM) as a drop-in replacement for mean pooling: it improves accuracy without increasing embedding dimensionality. For maximum accuracy, Stats pooling (concatenation of min/max/mean/std pooling) performs best at 4x the embedding size. We further find that pooling effectiveness varies across embedding sources and that higher-dimensional embeddings benefit most from distributional statistics.

研究の動機と目的

  • encoder が利用不可の場合に dense なピクセル埋め込みをパッチ表現へどのように集約するかを検討する。
  • ランダムおよび地理的に離散したスプリット下で、プーリングの選択が空間一般化へ与える影響を評価する。
  • 地理空間タスクの固定埋め込み製品を使用する実務者への実用的なプーリング推奨を提供する。

提案手法

  • AlphaEarth、OlmoEarth、Tessera からの三つの整列埋め込みデータセットを用いた EuroSAT-Embed を導入する。
  • EuroSAT-Embed 上で 11 種類の学習不要プーリング手法と 2 つの学習セット適合ベースラインを、2 つのプローブ(kNN と線形)と2つのデータ分割(ランダムおよび空間)でベンチマークする。
  • プーリングが線形プローブおよび kNN プローブの性能と一般化ギャップに与える影響を分析する。
  • 平均、分布統計量(std、最小/最大/平均/標準偏差、percentile、中央値+IQR)、共分散プーリング、パラメトリックプール(PCA、BoVW)を検討する。
  • 空間分割下での性能とモデルサイズに基づく実用的な推奨を提供する。
Figure 1: Pixel-to-patch pooling. The input-label resolution mismatch requires aggregating dense pixel embeddings (shown as PCA pseudo-RGB) to a lower resolution for downstream tasks.
Figure 1: Pixel-to-patch pooling. The input-label resolution mismatch requires aggregating dense pixel embeddings (shown as PCA pseudo-RGB) to a lower resolution for downstream tasks.

実験結果

リサーチクエスチョン

  • RQ1固定ピクセル埋め込みから得られるパッチレベル表現に対する事後プーリング戦略はどのように異なるか。
  • RQ2分布的プーリング手法は複数の地理空間埋め込み製品で平均プーリングより空間一般化を改善するか。
  • RQ3空間分布シフト下での精度と頑健性の最良のトレードオフを提供するプーリング戦略はどれか。
  • RQ4高次元プーリング表現(例:共分散)がピーク精度に有益か、単純な統計と比較して制約下でどうか。

主な発見

  • 分布的プーリングは3つの埋め込み製品全体で平均プーリングより空間一般化を一貫して改善する。
  • Stats プーリング(min/max/mean/std)は空間分割下で4倍埋め込み次元のデフォルト性能を最も強く提供する。
  • 共分散プーリングは高次元表現が許容される場合、いくつかのエンコーダで最高精度を達成する。
  • 空間分割下では、stats プーリングを用いた線形プローブは 91–94% の精度(平均 93.0%)に達し、平均プーリングの 84–92%(平均 87.3%)から +6% の向上。
  • ランダム分割から空間分割への一般化ギャップは分布的プーリングで縮小する(例:平均 8.8 ポイントのギャップ、stats 3.8 ポイントのギャップ)。
  • 共分散プーリングと mean+max は空間シフト下で精度を高く保ちつつ劣化を小さくする一方、kNN 結果は空間分割で stats が優勢だが共分散は kNN には影響が小さい。
Figure 2: Random vs spatial accuracy. Points near the diagonal (where random $=$ spatial) have smaller generalization gaps.
Figure 2: Random vs spatial accuracy. Points near the diagonal (where random $=$ spatial) have smaller generalization gaps.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。