[논문 리뷰] Rethinking the Role of LLMs in Time Series Forecasting
본 논문은 대규모 크로스-데이터셋 연구를 통해 LLM 기반 시계열 예측(LLM4TSF)이 성능 향상을 가져다주며, 특히 교차 도메인 일반화에서 이점이 크고, pretrained 지식과 모델 아키텍처가 언제 어떻게 기여하는지 분석한다.
Large language models (LLMs) have been introduced to time series forecasting (TSF) to incorporate contextual knowledge beyond numerical signals. However, existing studies question whether LLMs provide genuine benefits, often reporting comparable performance without LLMs. We show that such conclusions stem from limited evaluation settings and do not hold at scale. We conduct a large-scale study of LLM-based TSF (LLM4TSF) across 8 billion observations, 17 forecasting scenarios, 4 horizons, multiple alignment strategies, and both in-domain and out-of-domain settings. Our results demonstrate that \emph{LLM4TS indeed improves forecasting performance}, with especially large gains in cross-domain generalization. Pre-alignment outperforming post-alignment in over 90\% of tasks. Both pretrained knowledge and model architecture of LLMs contribute and play complementary roles: pretraining is critical under distribution shifts, while architecture excels at modeling complex temporal dynamics. Moreover, under large-scale mixed distributions, a fully intact LLM becomes indispensable, as confirmed by token-level routing analysis and prompt-based improvements. Overall, Our findings overturn prior negative assessments, establish clear conditions under which LLMs are not only useful, and provide practical guidance for effective model design. We release our code at https://github.com/EIT-NLP/LLM4TSF.
연구 동기 및 목표
- 사전 학습된 LLM이 순수한 아키텍처 강화 이상의 시계열 예측에서 실질적인 이점을 제공하는지 평가한다.
- 대규모에서 도메인 내외 설정에 걸쳐 선 사전 정렬(pre-alignment) 대 후 정렬(post-alignment) 전략을 평가한다.
- 성능 향상을 사전 학습 지식과 모델 아키텍처의 기여로 분해한다.
- 데이터 다양성 및 라우팅 결정이 TSF에서 LLM 활용에 어떤 영향을 미치는지 조사한다.
- 효과적인 LLM 기반 예측 시스템 설계를 위한 실용적 가이드라인을 제시한다.
제안 방법
- 두 가지 정렬 패러다임을 평가한다: 사전 정렬(pre-alignment) (감소된 단어 임베딩으로 교차 주의력을 이용해 TS를 언어로 매핑)과 사후 정렬(post-alignment) (공동 TS 인코더와 LLM 파인튜닝).
- TS 인코더, LLM 백본(GPT-2), 및 TS 디코터를 사용하여 62개 데이터셋에서 8B 관측치를 대상으로 H의 예측 구간을 {96, 192, 336, 720}로 설정하여 예측한다.
- 데이터 다양성 효과를 모델 효과와 분리하기 위해 단일 데이터셋 학습보다 교차 데이터셋 학습을 비교한다.
- 사전 학습 여부에 따라 w/ pre-training vs w/o pre-training vs w/o LLM를 포함한 어블레이션 연구를 수행하여 사전 학습 지식과 아키텍처의 영향을 정량화한다.
- 토큰 수준의 라우팅 분석을 수행하여 LLM이 언제 활용되는지와 프롬프트가 성능에 어떤 영향을 주는지 살펴본다.
- 데이터셋의 속성(시프트, 전이, 정상성 등)을 분석하여 LLM이 도움이 되는 시점을 이해하고 요인을 분리하기 위해 합성 데이터를 사용한다.
- 제로샷 및 파샷 설정에서 대규모 TS 기초 모델 및 다른 LLM 기반 TSF 접근법과 비교한다.
- TSF에서 LLM을 배치하기 위한 실용적 지침을 제공하고 한계를 논의한다.
실험 결과
연구 질문
- RQ1어떤 조건에서 LLM이 시계열 예측에서 이점을 제공하고, 반대로 필요하지 않을 수 있는 경우는 언제인가?
- RQ2분포 변화(distribution shifts) 하에서 특히 대규모에서 사전 정렬과 사후 정렬 전략은 어떻게 비교되는가?
- RQ3사전 학습 지식과 아키텍처 용량이 TSF 성능에 기여하는 차별적 기여는 무엇인가?
- RQ4데이터 다양성(교차 데이터셋 학습)이 LLM4TSF의 도메인 내외 일반화에 어떤 영향을 미치는가?
- RQ5어떤 메커니즘(예: 토큰 라우팅, 프롬프트)이 예측에서 LLM이 언제 어떻게 활용되는지를 설명하는가?
주요 결과
- cross-dataset 학습을 통한 LLM4TSF가 예측 성능을 향상시키며, 교차 도메인 일반화에서 더 큰 이점을 보인다.
- 사전 정렬은 전체 작업의 90% 이상에서 사후 정렬보다 우수하다.
- 예측 이점은 사전 학습 지식과 아키텍처 용량 간 상보적 상호작용에서 비롯되며, 분포 변화하에서는 사전 학습이 도움을 주고, 아키텍처가 시간적 다이나믹스를 처리한다.
- 다양한 다중 출처 TS 데이터는 단일 데이터셋 기준선보다 도메인 내 성능이 더 강하고 교차 도메인 일반화도 더 좋다.
- 대규모에서 완전한 LLM의 존재가 필수적이 되며, 토큰 라우팅은 LLM 사용이 시프트/전이와 같은 데이터 속성과 상관관계가 있음을 보인다.
- 정보성 프롬프트는 일관되게 성능을 향상시키며, 모델 크기 이상의 시맨틱 가이드를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.