Skip to main content
QUICK REVIEW

[논문 리뷰] Seeking SOTA: Time-Series Forecasting Must Adopt Taxonomy-Specific Evaluation to Dispel Illusory Gains

Raeid Saqur, Christoph Bergmeir|arXiv (Cornell University)|2026. 03. 16.
Time Series Analysis and Forecasting인용 수 0
한 줄 요약

이 논문은 현재의 장기-시계열 벤치마크가 주기적 패턴을 강조하여 간단한 기초모델보다 복잡한 모델에 유리하게 작용한다고 주장한다; 범주별 평가와 강건한 고전적 기반 baselines를 통해 진정한 진보를 드러내야 한다고 촉구한다.

ABSTRACT

We argue that the current practice of evaluating AI/ML time-series forecasting models, predominantly on benchmarks characterized by strong, persistent periodicities and seasonalities, obscures real progress by overlooking the performance of efficient classical methods. We demonstrate that these "standard" datasets often exhibit dominant autocorrelation patterns and seasonal cycles that can be effectively captured by simpler linear or statistical models, rendering complex deep learning architectures frequently no more performant than their classical counterparts for these specific data characteristics, and raising questions as to whether any marginal improvements justify the significant increase in computational overhead and model complexity. We call on the community to (I) retire or substantially augment current benchmarks with datasets exhibiting a wider spectrum of non-stationarities, such as structural breaks, time-varying volatility, and concept drift, and less predictable dynamics drawn from diverse real-world domains, and (II) require every deep learning submission to include robust classical and simple baselines, appropriately chosen for the specific characteristics of the downstream tasks' time series. By doing so, we will help ensure that reported gains reflect genuine scientific methodological advances rather than artifacts of benchmark selection favoring models adept at learning repetitive patterns.

연구 동기 및 목표

  • 표준 LTSF 벤치마크가 강한 주기성을 지배하고 이것이 간단한 모델로 포착될 수 있음을 강조한다.
  • 다양한 도메인에서의 비정상성(non-stationarities) 및 비주기적 동역학을 벤치마크에 포함시키거나 보강해야 한다고 주장한다.
  • 모든 딥러닝 TSF 제출물이 데이터 특성에 맞춘 강건한 고전적 베이스라인을 포함하도록 한다고 권고한다.
  • 벤치마크가 artefact 이득이 아닌 실제 방법론적 진전을 반영하는 평가 프로토콜을 요구한다.

제안 방법

  • 현재 LTSF 벤치마크 데이터셋과 평가 관행에 대한 검토 및 비판.
  • 강한 주기성이 간단하거나 경량의 모델이 복잡한 트랜스포머와 경쟁하거나 이길 수 있게 하는 방식을 분석.
  • 다양한 시계열에 걸친 이질적 집합에서의 합성 효과를 설명하기 위한 통계 원리(예: Stein의 역설)를 논의.
  • 범주별 평가와 제출물에 저렴한 고전적 베이스라인의 정기적 포함을 위한 제안.

실험 결과

연구 질문

  • RQ1현재의 LTSF 벤치마크가 실제 세계의 비정상성과 주기적 데이터 너머의 모델 일반화를 반영하는가?
  • RQ2다양한 도메인에서 현재 LTSF 벤치마크에 대해 간단한 고전적 모델이 최첨단 딥러닝 방법과 경쟁할 수 있는가?
  • RQ3보고된 이득이 벤치마크 artefacts가 아닌 실제 방법론적 진전을 나타내도록 보장하기 위한 평가 관행은 무엇인가?
  • RQ4범주별 비정상성을 포함하고 공정한 베이스라인을 설정하도록 TSF 벤치마크를 어떻게 재설계해야 하는가?

주요 결과

  • 표준 LTSF 데이터셋은 강하고 지속적인 주기성을 보이며 이는 선형 또는 통계적 모델에 의해 효과적으로 포착된다.
  • 다수의 딥러닝 TSF 모델은 이 데이터셋에서 고전적 베이스라인에 비해 미미한 개선만을 제공하여 추가 복잡성의 가치를 의심하게 한다.
  • LTSF-Linear와 같은 간단한 모델이 아홉 개의 표준 LTSF 데이터셋에서 최첨단 트랜스포머를 능가할 수 있어 벤치마크 주도적 진보의 환상을 강조한다.
  • 이질적 시계열을 통합한 합산 지표는 전역 일반화를 선호할 수 있으며 개별 작업에서의 저조한 성능을 숨길 수 있다.
  • 비정상성의 더 넓은 스펙트럼(구조적 붕괴, 시간가변 변동성, 개념 드리프트 등)을 다루는 벤치마크 필요성과 제출물에 강건한 베이스라인 요구가 필요하다.
  • 평가 지표는 여러 지표를 보고하고 한정된 한계에 유의하여 편향된 순위를 피하도록 신중하게 선택되어야 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.