QUICK REVIEW

[논문 리뷰] Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Girmaw Abebe Tadesse, Titien Bartette|arXiv (Cornell University)|2026. 02. 23.

Archaeological Research and Protection인용 수 0

한 줄 요약

이 논문은 원시 PlanetScope 영상에서 학습된 엔드투엔드 CNN과 수작업 특징 및 기반모델 임베딩을 사용하는 전통 ML 모델을 체계적으로 비교하여 아프가니스탄의 약탈된 고고학 사이트 탐지에 대한 성능을 평가한다; ImageNet 사전 학습된 CNN과 공간 마스킹이 최상의 F1(0.926)을 달성하여 가장 강력한 전통 ML 설정(0.710)을 훨씬 능가한다.

ABSTRACT

Looting at archaeological sites poses a severe risk to cultural heritage, yet monitoring thousands of remote locations remains operationally difficult. We present a scalable and satellite-based pipeline to detect looted archaeological sites, using PlanetScope monthly mosaics (4.7m/pixel) and a curated dataset of 1,943 archaeological sites in Afghanistan (898 looted, 1,045 preserved) with multi-year imagery (2016--2023) and site-footprint masks. We compare (i) end-to-end CNN classifiers trained on raw RGB patches and (ii) traditional machine learning (ML) trained on handcrafted spectral/texture features and embeddings from recent remote-sensing foundation models. Results indicate that ImageNet-pretrained CNNs combined with spatial masking reach an F1 score of 0.926, clearly surpassing the strongest traditional ML setup, which attains an F1 score of 0.710 using SatCLIP-V+RF+Mean, i.e., location and vision embeddings fed into a Random Forest with mean-based temporal aggregation. Ablation studies demonstrate that ImageNet pretraining (even in the presence of domain shift) and spatial masking enhance performance. In contrast, geospatial foundation model embeddings perform competitively with handcrafted features, suggesting that looting signatures are extremely localized. The repository is available at https://github.com/microsoft/looted_site_detection.

연구 동기 및 목표

원격 고고학 현장의 수천 곳에 대한 약탈 모니터링의 확장성 도전 과제 해결.
원시 영상에 대해 학습된 엔드투엔드 CNN 분류기와 수작업 특징 및 기반모델 임베딩을 사용하는 전통 ML 방법의 비교.
약탈 탐지를 위한 ImageNet 사전 학습 및 공간 마스킹의 이점 정량화.
공간 발자국을 갖춘 대규모 다년간 약탈/보존 사이트 데이터셋 구축 및 공유.

제안 방법

2016–2023년의 PlanetScope 월간 모자이크(4.7 m/픽셀)를 사용하여 1 km x 1 km 사이트 중심 패치를 생성.
두 가지 방법론 계열 평가: RGB 패치에서의 엔드투엔드 CNN과 수작업 특징+기반모델 임베딩에 대한 전통 ML.
모델을 안내하기 위한 수동으로 주석된 사이트 발자국을 공간 마스크로 도입.
ImageNet 사전 학습 여부 및 마스킹 여부와 함께 여러 CNN 백본(ResNet-18/34/50, EfficientNet-B0/B1) 비교.
다년 영상에 대한 시간 축 집계 전략(평균, 중앙값, 연결, PCA) 평가.

Figure 1 : Overview of the archaeological sites in Afghanistan in this work. The sites are composed of $1045$ preserved and $898$ looted sites.

실험 결과

연구 질문

RQ1원시 RGB 영상에서 학습된 엔드투엔드 CNN이 수작업 특징 및 기반모델 임베딩을 사용하는 전통 ML 파이프라인과 비교하여 약탈 사이트 탐지에서 어떤 성능 차이를 보이는가?
RQ2Detection 성능에 대한 ImageNet 사전 학습과 공간 마스킹의 영향은 무엇인가?
RQ3연간 레이블 노이즈를 고려할 때 단일 연도 학습 regime이 다년 학습보다 더 강건한가, 그리고 시간에 걸쳐 판별 정보를 보존하는 가장 좋은 집계 전략은 무엇인가?
RQ4아프가니스탄의 약탈 패턴을 안정적으로 탐지하기 위해 필요한 데이터셋 규모와 영상 연도 수는 얼마나 되는가?
RQ5약탈 탐지를 위해 가장 informative한 특징이나 임베딩은 무엇인가?

주요 결과

모델 / 구성	정확도	정밀도	재현율	F1	AUROC
EfficientNet-B0	0.923 ± 0.018	0.913 ± 0.037	0.923 ± 0.017	0.918 ± 0.018	0.966 ± 0.015
EfficientNet-B1	0.925 ± 0.013	0.910 ± 0.034	0.933 ± 0.034	0.921 ± 0.014	0.970 ± 0.007
ResNet-18	0.927 ± 0.022	0.904 ± 0.031	0.943 ± 0.016	0.923 ± 0.022	0.968 ± 0.013
ResNet-34	0.917 ± 0.018	0.888 ± 0.038	0.941 ± 0.011	0.913 ± 0.017	0.965 ± 0.006
ResNet-50	0.930 ± 0.016	0.915 ± 0.046	0.940 ± 0.029	0.926 ± 0.015	0.970 ± 0.009
SatCLIP-V + RF + Mean	0.716 ± 0.017	0.674 ± 0.021	0.751 ± 0.018	0.710 ± 0.015	0.781 ± 0.011
Handcrafted + XGB + PCA	0.718 ± 0.013	0.703 ± 0.014	0.678 ± 0.031	0.690 ± 0.018	0.786 ± 0.012
GeoRSCLIP + LR + PCA	0.690 ± 0.022	0.662 ± 0.019	0.674 ± 0.045	0.668 ± 0.030	0.751 ± 0.019
Satlas Pretrain + LR + Concat	0.623 ± 0.021	0.591 ± 0.026	0.610 ± 0.035	0.599 ± 0.022	0.676 ± 0.011
Prithvi EO 2.0 + LR + PCA	0.597 ± 0.038	0.563 ± 0.040	0.570 ± 0.058	0.566 ± 0.048	0.635 ± 0.029
SatMAE + GB + Concat	0.606 ± 0.023	0.577 ± 0.025	0.553 ± 0.033	0.565 ± 0.027	0.640 ± 0.018
DINOv3 + RF + Median	0.596 ± 0.028	0.566 ± 0.031	0.547 ± 0.035	0.556 ± 0.032	0.621 ± 0.022

ImageNet에 사전 학습된 CNN과 공간 마스킹이 가장 높은 평균 F1을 달성(ResNet-50: 0.926 ± 0.015).
가장 강력한 전통 ML 구성(SatCLIP-V+RF+Mean)은 F1 = 0.710 ± 0.015로 CNN 성능에 훨씬 못 미침.
ImageNet 사전 학습은 백본 전반에서 F1를 향상시키며(ResNet-34의 경우 최대 +0.143).
공간 마스킹은 사이트 발자국에 집중하여 F1 향상(0.301에서 0.455 증가)이라는 상당한 이점을 제공.
기반모델 임베딩은 수작업 특징과 경쟁 가능하지만, 손으로 만든 질감 특징(GLCM)이 약탈 질감 패턴에 강력한 신호를 제공.
데이터셋은 아프가니스탄의 1,943개 사이트(약탈 898개, 보존 1,045개)와 96개월의 PlanetScope 데이터로 구성되며, 시간적 일관성과 연도별 훈련은 레이블 노이즈를 감소시킴.

Figure 2 : EfficientNet-B1 performance across individual years (2017–2023), pretrained with spatial masking. Error bars show std across folds.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.