Skip to main content
QUICK REVIEW

[논문 리뷰] Evaluating Forecasts with scoringutils in R

Nikos I Bosse, Hugo Gruson|arXiv (Cornell University)|2022. 05. 14.
Forecasting Techniques and Applications인용 수 26
한 줄 요약

이 논문은 scoringutils 패키지를 사용하여 R에서 예측을 평가하는 방법을 시연합니다. 점수 요약, 커버리지 추정, 샘플 기반 예측을 분위수 기반 형식으로 변환하는 방법을 포함합니다. 또한 점수를 집계할 때의 주의사항과 보정(calibration) 지표 해석에 대해 논의합니다.

ABSTRACT

Evaluating forecasts is essential to understand and improve forecasting and make forecasts useful to decision makers. A variety of R packages provide a broad variety of scoring rules, visualisations and diagnostic tools. One particular challenge, which scoringutils aims to address, is handling the complexity of evaluating and comparing forecasts from several forecasters across multiple dimensions such as time, space, and different types of targets. scoringutils extends the existing landscape by offering a convenient and flexible data.table-based framework for evaluating and comparing probabilistic forecasts (forecasts represented by a full predictive distribution). Notably, scoringutils is the first package to offer extensive support for probabilistic forecasts in the form of predictive quantiles, a format that is currently used by several infectious disease Forecast Hubs. The package is easily extendable, meaning that users can supply their own scoring rules or extend existing classes to handle new types of forecasts. scoringutils provides broad functionality to check the data and diagnose issues, to visualise forecasts and missing data, to transform data before scoring, to handle missing forecasts, to aggregate scores, and to visualise the results of the evaluation. The paper presents the package and its core functionality and illustrates common workflows using example data of forecasts for COVID-19 cases and deaths submitted to the European COVID-19 Forecast Hub.

연구 동기 및 목표

  • R에서 forecast 평가를 위해 scoringutils를 사용하는 방법을 시연한다.
  • 모델 및 대상 유형별로 예측 점수를 요약하고 시각화하는 방법을 보여준다.
  • 보정 지표와 경험적 예측 구간을 이용한 커버리지에 대한 가이드를 제공한다.
  • 다른 예측 형식(분위수 기반 vs 샘플 기반)에 대한 데이터 준비 단계를 설명한다.

제안 방법

  • summarise_scores를 사용하여 모델 및 대상 유형별로 예측 점수를 집계하고 표시한다.
  • 중앙 예측 구간(예: 50% 또는 90%)의 경험적 커버리지를 정량화하기 위해 add_coverage를 적용한다.
  • sample_to_quantile를 사용하여 샘플 기반 예측을 분위수 기반 형식으로 변환하고, score() 및 add_coverage()를 가능하게 한다.
  • plotscoretable과 by/grouping 옵션(예: targettype별)을 사용한 시각화를 시연한다.
  • 다양한 예측 형식이나 수평에 걸친 점수 집계 시 지배적 대상을 피하기 위한 주의사항을 강조한다.
  • 경보 보정의 프록시로서 경험적 커버리지의 사용과, 주의가 필요한 대안 요약 함수(예: signif)의 역할을 주의하여 기술한다.

실험 결과

연구 질문

  • RQ1scoringutils를 어떻게 사용하여 모델 및 대상 유형 전반의 예측 평가 지표를 계산하고 시각화할 수 있는가?
  • RQ2다른 예측 형식(분위수 기반 vs 샘플 기반)에 대한 적절한 집계 및 시각화 전략은 무엇인가?
  • RQ3경험적 커버리지 지표가 예측 구간에 대한 보정( calibration)을 어떻게 반영하는지, 그리고 점수 표에 이를 어떻게 추가할 수 있는가?
  • RQ4이질적인 예측 대상이나 수평에 걸쳐 점수를 집계할 때 어떤 주의가 필요한가?

주요 결과

  • scoringutils는 summarise_scores와 plotscoretable과 같은 함수로 예측 점수를 요약하고 시각화할 수 있게 한다.
  • add_coverage는 특정 중앙 예측 구간(예: 50% 또는 90%)에 대한 경험적 커버리지 추정치를 제공한다.
  • sample_to_quantile은 샘플 기반 예측을 점수 및 커버리지 분석에 적합한 분위수 기반 형식으로 변환하도록 한다.
  • 이질적인 대상이나 수평에 걸쳐 점수를 집계하면 지배적인 집계가 생겨 해석이 왜곡될 수 있으므로 상대적 또는 계층화된 분석을 권장한다.
  • 예시는 다중 수량(예: 사례수, 사망자 수) 및 다중 모델 시나리오로, 모델별 및 대상 유형별 요약을 포함한 결과를 보여준다.
  • 일부 합산에서 점수의 적합성이 깨질 수 있으므로 비평균 요약 함수 사용 시 주의할 것을 권고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.