QUICK REVIEW

[論文レビュー] GeoFormer: A Swin Transformer-Based Framework for Scene-Level Building Height and Footprint Estimation from Sentinel Imagery

Han Jinzhen, JinByeong Lee|arXiv (Cornell University)|Feb 10, 2026

Remote-Sensing Image Classification被引用数 0

ひとこと要約

GeoFormer は Sentinel-1/2 と公開 DEM データを用いてシーンレベルの建物高さとフットプリントを100 m gridで共同予測する。都市間一般化が強く、コードとモデルをオープン公開。

ABSTRACT

Accurate three-dimensional urban data are critical for climate modelling, disaster risk assessment, and urban planning, yet remain scarce due to reliance on proprietary sensors or poor cross-city generalisation. We propose GeoFormer, an open-source Swin Transformer framework that jointly estimates building height (BH) and footprint (BF) on a 100 m grid using only Sentinel-1/2 imagery and open DEM data. A geo-blocked splitting strategy ensures strict spatial independence between training and test sets. Evaluated over 54 diverse cities, GeoFormer achieves a BH RMSE of 3.19 m and a BF RMSE of 0.05, improving 7.5% and 15.3% over the strongest CNN baseline, while maintaining under 3.5 m BH RMSE in cross-continent transfer. Ablation studies confirm that DEM is indispensable for height estimation and that optical reflectance dominates over SAR, though multi-source fusion yields the best overall accuracy. All code, weights, and global products are publicly released.

研究の動機と目的

オープンデータソースを用いた100 m 解像度のグローバル規模3D 都市データのスケーラブル性の必要性を動機づける。
Sentinel-1/2 と DEM 入力で機能する共同 BH と BF 推定モデルを開発する。
都市間の一般化を妨げるデータ漏洩を避けるために空間的に独立したトレーニング/テスト分割を確保する。
都市形態マッピングのための Swin Transformer ベースのマルチタスクアーキテクチャの有効性を実証する。
広く再利用されるオープンソースコード、重み、グローバル製品を提供する。

提案手法

Swin Transformer ベースのマルチタスクモデル GeoFormer を提案し、100 m 解像度で BH と BF を共同予測する。
複数ソース入力（Sentinel-1 SAR、Sentinel-2 光学、DEM）を8チャネルテンソルに統合する。
中心の100 mセルを囲む3×3、5×5、または9×9のコンテキストウィンドウを用いて文脈特徴を学習する。
Swin の出力から中心トークンを抜き出し、2 つのタスク専用ヘッド（BH 回帰は ReLU、BF は sigmoid）を適用する。
Adaptive Huber 損失を両タスクに組み合わせた不確実性加重マルチタスク損失で学習する。
GeoSplit と呼ばれる空間的に意識したデータ分割戦略を採用し、厳格なトレイン/テスト独立性を確保し情報漏洩を防ぐ。

実験結果

リサーチクエスチョン

RQ1Sentinel 画像と公開 DEM データだけを用いて、Swin Transformer ベースのマルチタスクモデルは100 m grid 解像度で建物高さとフットプリントを共同予測できるか。
RQ2マルチソースデータ統合（SAR、光学、DEM）は、単一モーダルのベースラインと比較して BH および BF 推定精度にどのような影響を与えるか。
RQ3受容野サイズが BH/BF の精度と一般化に与える影響はどの程度か。
RQ4モデルは都市間・大陸横断・災害後シナリオにおいて、専有データやベクタ入力に依存せずどれだけ一般化できるか。
RQ5DEM は高度推定とフットプリント推定でどのような役割を果たすか。

主な発見

Model	RMSE	MAE	ME	NMAD	CC	R^2
UNet-MTL	3.45	1.64	-0.35	1.32	0.78	0.60
GeoFormer 3×3	3.35	1.60	-0.35	1.31	0.80	0.63
GeoFormer 5×5	3.19	1.53	-0.16	1.26	0.81	0.66
GeoFormer 9×9	3.37	1.58	-0.36	1.26	0.80	0.62
UNet-MTL	0.06	0.03	0.00	0.03	0.86	0.74
GeoFormer 3×3	0.05	0.03	-0.01	0.03	0.89	0.79
GeoFormer 5×5	0.05	0.03	0.00	0.03	0.90	0.80
GeoFormer 9×9	0.05	0.03	0.00	0.03	0.89	0.79

GeoFormer は 54 都市で BH RMSE が 3.19 m、BF RMSE が 0.050 を達成し、最も強力な CNN ベースラインを BH で 7.5%、BF で 15.3% 上回る。
5×5 の受容野が、評価したコンテキストサイズの中で総合的な BH/BF 精度と一般化に最も優れていた。
アブレーション実験により、Height 推定には DEM が不可欠、Height 取得には光学データが SAR より優位、マルチソース融合が全体精度を最も高めることを示す。
都市間・大陸間・災害後評価は、100 m GeoFormer 手法の堅牢な一般化を示す。
モデル容量をある点以上削減すると過学習と一般化の低下を招く。過度のコンテキストは過度な平滑化を招く可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。