QUICK REVIEW

[論文レビュー] Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Girmaw Abebe Tadesse, Titien Bartette|arXiv (Cornell University)|Feb 23, 2026

Archaeological Research and Protection被引用数 0

ひとこと要約

この論文は、生の PlanetScope 画像で学習したエンドツーエンドの CNN を、手作り特徴量とファウンデーションモデル埋め込みを用いた伝統的な ML モデルと体系的に比較し、アフガニスタンの略奪跡地検出を評価している。ImageNet-pretrained CNNs の空間マスク適用が最も高い F1 を達成（0.926）、最も強力な伝統的 ML セットアップ（0.710）を大きく上回る。

ABSTRACT

Looting at archaeological sites poses a severe risk to cultural heritage, yet monitoring thousands of remote locations remains operationally difficult. We present a scalable and satellite-based pipeline to detect looted archaeological sites, using PlanetScope monthly mosaics (4.7m/pixel) and a curated dataset of 1,943 archaeological sites in Afghanistan (898 looted, 1,045 preserved) with multi-year imagery (2016--2023) and site-footprint masks. We compare (i) end-to-end CNN classifiers trained on raw RGB patches and (ii) traditional machine learning (ML) trained on handcrafted spectral/texture features and embeddings from recent remote-sensing foundation models. Results indicate that ImageNet-pretrained CNNs combined with spatial masking reach an F1 score of 0.926, clearly surpassing the strongest traditional ML setup, which attains an F1 score of 0.710 using SatCLIP-V+RF+Mean, i.e., location and vision embeddings fed into a Random Forest with mean-based temporal aggregation. Ablation studies demonstrate that ImageNet pretraining (even in the presence of domain shift) and spatial masking enhance performance. In contrast, geospatial foundation model embeddings perform competitively with handcrafted features, suggesting that looting signatures are extremely localized. The repository is available at https://github.com/microsoft/looted_site_detection.

研究の動機と目的

遠隔地の多数の考古遺跡の略奪監視におけるスケーラビリティ課題に対処する。
raw 画像で学習したエンドツーエンドの CNN 分類器を、手作り特徴量とファウンデーションモデル埋め込みを用いた伝統的 ML 法と比較する。
looting 検出のための ImageNet 事前学習と空間マスクの利点を定量化する。
空間的フィートプリントを用いた略奪・保全サイトの大規模で長期的なデータセットを構築・共有する。

提案手法

2016–2023 年の PlanetScope 月次モザイク（4.7 m/pixel）を用いて、1 km x 1 km のサイト中心パッチを作成する。
2つの方法論ファミリーを評価する：RGB パッチのエンドツーエンド CNN と、手作り特徴量＋ファウンデーションモデル埋め込みを用いた伝統的 ML。
手動で注釈されたサイト footprints を空間マスクとして組み込み、モデルをガイドする。
ImageNet 事前学習の有無とマスキングの有無で複数のCNNバックボーン（ResNet-18/34/50、EfficientNet-B0/B1）を比較する。
多年分画像に対する temporal aggregation 戦略（mean、median、concatenation、PCA）を評価する。

Figure 1 : Overview of the archaeological sites in Afghanistan in this work. The sites are composed of $1045$ preserved and $898$ looted sites.

実験結果

リサーチクエスチョン

RQ1 raw RGB 画像で学習したエンドツーエンド CNN が、手作り特徴量とファウンデーション-model 埋め込みを用いた伝統的 ML パイプラインと比較して略奪サイト検出でどの程度の差を生むか。
RQ2 ImageNet 事前学習と空間マスクが検出性能に与える影響は何か。
RQ3 年次ラベルノイズを考慮した場合、単一年の訓練体制は多年訓練よりロバストか、どの集約戦略が時間を通じて識別情報を最もよく保持するか。
RQ4 アフガニスタンで略奪パターンを堅牢に検出するには、どれくらいのデータセットと何年分の画像が必要か。
RQ5 もっとも情報価値の高い特徴量や埋め込みは何か。

主な発見

Model / Configuration	Accuracy	Precision	Recall	F1	AUROC
EfficientNet-B0	0.923 ± 0.018	0.913 ± 0.037	0.923 ± 0.017	0.918 ± 0.018	0.966 ± 0.015
EfficientNet-B1	0.925 ± 0.013	0.910 ± 0.034	0.933 ± 0.034	0.921 ± 0.014	0.970 ± 0.007
ResNet-18	0.927 ± 0.022	0.904 ± 0.031	0.943 ± 0.016	0.923 ± 0.022	0.968 ± 0.013
ResNet-34	0.917 ± 0.018	0.888 ± 0.038	0.941 ± 0.011	0.913 ± 0.017	0.965 ± 0.006
ResNet-50	0.930 ± 0.016	0.915 ± 0.046	0.940 ± 0.029	0.926 ± 0.015	0.970 ± 0.009
SatCLIP-V + RF + Mean	0.716 ± 0.017	0.674 ± 0.021	0.751 ± 0.018	0.710 ± 0.015	0.781 ± 0.011
Handcrafted + XGB + PCA	0.718 ± 0.013	0.703 ± 0.014	0.678 ± 0.031	0.690 ± 0.018	0.786 ± 0.012
GeoRSCLIP + LR + PCA	0.690 ± 0.022	0.662 ± 0.019	0.674 ± 0.045	0.668 ± 0.030	0.751 ± 0.019
Satlas Pretrain + LR + Concat	0.623 ± 0.021	0.591 ± 0.026	0.610 ± 0.035	0.599 ± 0.022	0.676 ± 0.011
Prithvi EO 2.0 + LR + PCA	0.597 ± 0.038	0.563 ± 0.040	0.570 ± 0.058	0.566 ± 0.048	0.635 ± 0.029
SatMAE + GB + Concat	0.606 ± 0.023	0.577 ± 0.025	0.553 ± 0.033	0.565 ± 0.027	0.640 ± 0.018
DINOv3 + RF + Median	0.596 ± 0.028	0.566 ± 0.031	0.547 ± 0.035	0.556 ± 0.032	0.621 ± 0.022

ImageNet で事前学習し空間マスクを用いた CNN が最も高い平均 F1 を達成（ResNet-50: 0.926 ± 0.015）。
最も強力な伝統的 ML セットアップ（SatCLIP-V+RF+Mean）は F1 = 0.710 ± 0.015 にとどまり、CNN の性能を大きく下回る。
ImageNet 事前学習はバックボーン全体の F1 を向上させる（ResNet-34 で最大 +0.143）。
空間マスクはサイト footprints に焦点を当てることで顕著な利得を生む（F1 が 0.301 から 0.455 増加）。
ファウンデーションモデルの埋め込みは手作り特徴量と競合し得るが、手作りのテクスチャ特徴量（GLCM）は略奪のテクスチャパターンに強い信号を提供する。
データセットはアフガニスタンの 1,943 サイト（略奪 898、保全 1,045）、PlanetScope データ 96 ヶ月で構成され、時系列の一貫性と年次訓練はラベルノイズを低減する。

Figure 2 : EfficientNet-B1 performance across individual years (2017–2023), pretrained with spatial masking. Error bars show std across folds.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。