Skip to main content
QUICK REVIEW

[논문 리뷰] The CAST package for training and assessment of spatial prediction models in R

Hanna Meyer, Marvin Ludwig|arXiv (Cornell University)|2024. 04. 10.
demographic modeling and climate adaptation인용 수 5
한 줄 요약

CAST R 패키지는 공간적으로 인지된 머신 러닝 워크플로우 도구를 제공하며, 새로운 교차검증(NNDM/kNNDM), 적합도 영역(AOA), 특징 선택, 픽셀 수준 불확실성 등을 포함하고 남미 식물 종 풍부도에서 시연됩니다.

ABSTRACT

One key task in environmental science is to map environmental variables continuously in space or even in space and time. Machine learning algorithms are frequently used to learn from local field observations to make spatial predictions by estimating the value of the variable of interest in places where it has not been measured. However, the application of machine learning strategies for spatial mapping involves additional challenges compared to "non-spatial" prediction tasks that often originate from spatial autocorrelation and from training data that are not independent and identically distributed. In the past few years, we developed a number of methods to support the application of machine learning for spatial data which involves the development of suitable cross-validation strategies for performance assessment and model selection, spatial feature selection, and methods to assess the area of applicability of the trained models. The intention of the CAST package is to support the application of machine learning strategies for predictive mapping by implementing such methods and making them available for easy integration into modelling workflows. Here we introduce the CAST package and its core functionalities. At the case study of mapping plant species richness, we will go through the different steps of the modelling workflow and show how CAST can be used to support more reliable spatial predictions.

연구 동기 및 목표

  • 공간 자기상관성과 비독립적(non-i.i.d.) 학습 데이터로 인해 공간 예측 과제에 머신 러닝을 적용하는 데 따른 도전 과제를 제시한다.
  • CAST를 R의 ML 워크플로에 공간 교차검증, 특징 선택 및 적용 가능성 평가를 통합하는 도구 세트로 제시한다.
  • CAST 기능을 활용한 남미 식물 종 풍부도 예측을 위한 실용적인 워크플로를 시연한다.
  • 예측 불확실성을 정량화하고 모델 예측이 유효한 영역을 구분하는 방법을 보여준다.

제안 방법

  • Prediction-oriented cross-validation 전략으로서 Nearest Neighbor Distance Matching(NNDM)와 그 k-fold 변형(kNNDM)을 도입하여 예측 조건을 모방하고 학습-테스트 최근접 이웃 거리의 분포를 예측-대 학습 거리와 일치시켜 예측 지향적 교차 검증 전략으로 NNDM 및 그 k-fold 변형(kNNDM)을 도입한다.
  • 지리적 거리를 비교하고 교차 검증 폴드의 대표성을 평가하기 위한 시각화 도구(geodist)를 제공한다.
  • 과적합을 줄이고 공간 예측 성능을 향상시키기 위한 공간 특징 선택(순방향 특징 선택)을 구현한다(CAST::ffs).
  • 예측자 공간에서의 이질성 지수(DI)를 사용하여 적용 가능 영역(AOA)을 정의하고 계산하며, 외삽 위험을 표시하기 위한 선택적 국지 데이터 포인트 밀도(LPD)를 포함한다(CAST::aoa, CAST::trainDI).
  • DI와 AOA에 의해 정보가 주어진 오차 프로파일(CAST::errorProfiles)을 통해 픽셀 단위 예측 성능을 추정하여 불확실성 맵핑을 가능하게 한다.
  • 일반 ML 워크플로우(caret, ranger)와의 통합 및 래스터/벡터 데이터를 위한 terra와 sf와의 호환성을 시연한다.

실험 결과

연구 질문

  • RQ1예측 지향적 교차검증 전략(NNDM/kNNDM)이 공간 모델의 현실적인 지도 정확도 추정에 어떤 영향을 미치는가?
  • RQ2공간 특징 선택이 과적합을 줄이고 공간 정확도를 유지하거나 향상시켜 예측 매핑을 개선할 수 있는가?
  • RQ3적합도 영역을 어떻게 구분하고 활용하여 학습 데이터에 의해 다루어지지 않는 영역에서 신뢰할 수 없는 예측을 피할 수 있는가?
  • RQ4예측자 공간 이질성과 데이터 밀도 측정을 사용하여 픽셀 단위 불확실성을 어떻게 정량화하고 전달할 수 있는가?

주요 결과

  • kNNDM 교차검증은 무작위 k-폴드 CV보다 더 현실적인(때로는 더 나쁜) 검증 지표를 산출하는데, 더 어렵고 더 멀리 있는 예측을 시험하여 실제 세계의 외삽 조건을 반영한다.
  • Forward feature selection under a suitable spatial CV strategy can reduce RMSE and improve R2 with fewer predictors than a full model.
  • The area of applicability (AOA) identifies regions where model predictions are reliable, based on a dissimilarity index to training data in predictor space; predictions outside AOA are masked.
  • Pixel-level performance estimation using error profiles links cross-validated performance to local predictor-space dissimilarity, enabling spatially explicit uncertainty mapping.
  • In the South America plant richness example, a simplified model with 5 predictors using kNNDM had RMSE 31.97 and R2 0.52, while the full model with random CV had RMSE 24.16 and R2 0.71 (n=table entries), illustrating the impact of CV choice on reported performance.
  • The CAST workflow integrates cross-validation, feature selection, AOA, and uncertainty assessment to produce more reliable spatial predictions.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.