QUICK REVIEW

[논문 리뷰] Machine Learning vs Statistical Methods for Time Series Forecasting: Size Matters

Vítor Cerqueira, Luı́s Torgo|arXiv (Cornell University)|2019. 09. 29.

Time Series Analysis and Forecasting참고 문헌 34인용 수 74

한 줄 요약

본 논문은 샘플 크기가 단변 시간계열 예측에서 기계 학습과 통계 방법의 상대적 성능에 영향을 주며, 데이터 크기가 커질수록 ML이 이점을 얻는다는 것을 보여준다.

ABSTRACT

Time series forecasting is one of the most active research topics. Machine learning methods have been increasingly adopted to solve these predictive tasks. However, in a recent work, these were shown to systematically present a lower predictive performance relative to simple statistical methods. In this work, we counter these results. We show that these are only valid under an extremely low sample size. Using a learning curve method, our results suggest that machine learning methods improve their relative predictive performance as the sample size grows. The code to reproduce the experiments is available at https://github.com/vcerqueira/MLforForecasting.

연구 동기 및 목표

작은 샘플 크기를 넘어선 시간계열 예측에서 ML 대 통계 방법 논쟁을 재검토하도록 동기를 부여한다.
샘플 크기를 통제하여 머신러닝과 통계적 접근법의 예측을 비교한다.
증가하는 학습 데이터 하에서 한 시점 앞 예측 및 다중 시점 예측을 평가한다.
예측 방법을 평가하기 위한 사전-적합(prequential) 학습 곡선을 포함한 재현 가능한 경험적 프레임워크를 제공한다.

제안 방법

최소 1000 개의 관측치를 가진 90개의 단변 시간계열을 사용하고 균일화를 위해 1000으로 잘라낸다.
다섯 가지 통계 방법(ARIMA, Naive2, Theta, ETS, Tbats)과 다섯 가지 ML 기반 AR(p) 접근법(RBR, RF, GP, MARS, GLM)을 비교한다.
Makridakis 등(2018)과 같이 예측 전에 Box-Cox 변환, 계절성 처리 및 추세 제거를 적용한다.
학습 크기가 18개 관측치에서 시작하여 증가하는 사전-적합 학습 곡선 절차를 적용하고 다음 1단계 또는 18단계를 예측한다.
평균 절대 스케일 오류(MASE) 및 시간 시계열 전반의 모델 순위를 사용하여 평가하고, 모델별 평균 순위를 보고한다.

실험 결과

연구 질문

RQ1단변 시간계열 예측에서 통계 방법과 기계 학습 방법의 상대 예측 성능이 샘플 크기에 의존하는가?
RQ2데이터 크기가 증가함에 따라 한 단계 예측과 다단계 예측 시나리오에서 어떤 방법이 최적으로 수행되는지가 어떻게 달라지는가?
RQ3자동 매개변수 조정하에서 경쟁 방법들의 계산 비용 프로파일은 어떠한가?
RQ4비교에서 명확하게 약한 기준선(Naive2 등)을 제외하면 결과가 달라지는가?

주요 결과

매우 작은 학습 크기에서 통계 방법은 ML 방법을 능가하지만, 샘플 크기가 커지면 ML 방법이 통계 방법을 능가한다.
Naive2를 제외하면 ML 방법이 학습 곡선에서 한 단계 예측의 조기 구간에서 통계 방법을 따라잡고 종종 능가한다.
다단계 예측의 경우 ARIMA가 평균 순위에서 최상위가 되지만, 전반적으로 학습 크기가 커지면서 ML 대 통계의 차이는 수렴하는 것으로 나타나며(Naive2 제외).
ML 접근법은 더 많은 데이터의 이점을 얻지만 다단계 예측에서 증가하는 불확실성을 다루려면 더 많은 데이터가 필요할 수 있다.
일부 자동화된 통계 방법(예: ARIMA, Tbats)은 매개변수 최적화로 인해 계산 시간이 더 길고, 반면 ML 방법은 테스트된 설정에서 상대적으로 더 낮은 복잡성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.