[論文レビュー] Rethinking the Role of LLMs in Time Series Forecasting
論文は大規模なデータセット横断研究を提供し、LLMベースの時系列予測(LLM4TSF)が特にクロスドメイン一般化で性能向上をもたらすことを示し、事前学習知識とモデルアーキテクチャが寄与する時期と方法を分析します。
Large language models (LLMs) have been introduced to time series forecasting (TSF) to incorporate contextual knowledge beyond numerical signals. However, existing studies question whether LLMs provide genuine benefits, often reporting comparable performance without LLMs. We show that such conclusions stem from limited evaluation settings and do not hold at scale. We conduct a large-scale study of LLM-based TSF (LLM4TSF) across 8 billion observations, 17 forecasting scenarios, 4 horizons, multiple alignment strategies, and both in-domain and out-of-domain settings. Our results demonstrate that \emph{LLM4TS indeed improves forecasting performance}, with especially large gains in cross-domain generalization. Pre-alignment outperforming post-alignment in over 90\% of tasks. Both pretrained knowledge and model architecture of LLMs contribute and play complementary roles: pretraining is critical under distribution shifts, while architecture excels at modeling complex temporal dynamics. Moreover, under large-scale mixed distributions, a fully intact LLM becomes indispensable, as confirmed by token-level routing analysis and prompt-based improvements. Overall, Our findings overturn prior negative assessments, establish clear conditions under which LLMs are not only useful, and provide practical guidance for effective model design. We release our code at https://github.com/EIT-NLP/LLM4TSF.
研究の動機と目的
- 事前学習済みLLMが純粋なアーキテクチャ拡張を超える時系列予測への実質的な利点を提供するかを評価する。
- イン-domainおよびout-of-domain設定におけるスケールでの事前整列と事後整列戦略を評価する。
- 事前学習知識とアーキテクチャの寄与を性能向上の要因として分解する。
- データの多様性とルーティング決定がTSFにおけるLLMの活用にどう影響するかを調査する。
- 効果的なLLMベース予測システム設計の実践的ガイドラインを提供する。
提案手法
- 事前整列(言語へのTSをクロスアテンションで語彙埋め込みを縮小して変換)と事後整列(TSエンコーダとLLMのファインチューニングを共同で行う)という二つの整列パラダイムを評価する。
- TSエンコーダ、LLMバックボーン(GPT-2)、TSデコーダを用いて、8B観測の62データセットからH=96,192,336,720のホライズンを予測する。
- 単一データセット学習と横断データセット学習を比較し、データ多様性の効果とモデル効果を分離する。
- 前学習あり/なし/LLMなしでアブレーションを実施し、事前学習知識とアーキテクチャの影響を定量化する。
- トークンレベルのルーティング分析を行い、LLMsがいつ利用されるかとプロンプトが性能に与える影響を検討する。
- データセット特性(シフト、遷移、定常性など)を分析し、LLMsが役立つ状況を理解する。因子を分離するために合成データを活用する。
- 大規模TS基盤モデルおよび他のLLMベースTSF手法と、ゼロショットおよび少数ショット設定で比較する。
- TSF導入時の実践的ガイドラインを提供し、限界について議論する。
実験結果
リサーチクエスチョン
- RQ1LLMはどの条件下で時系列予測に利点をもたらし、いつ不要となるか。
- RQ2特に分布シフト下で、スケール時に事前整列と事後整列戦略はどう比較されるか。
- RQ3事前学習知識とアーキテクチャ能力のTSF性能への寄与はそれぞれどう異なるか。
- RQ4データの多様性(横断データ学習)は、LLM4TSFのインドメインおよびアウトオブドメイン一般化にどう影響するか。
- RQ5予測においてLLMsが活用される仕組み(トークンルーティング、プロンプトなど)は何か、どのように説明するか。
主な発見
- 横断データセット学習を伴うLLM4TSFは予測性能を向上させ、特にクロスドメイン一般化でより大きな利得を示す。
- 事前整列は全体のタスクの90%以上で事後整列を上回る。
- 予測の利得は事前知識とアーキテクチャの補完的な相互作用から生じ、分布シフト下で事前学習が有効であり、アーキテクチャが時間的ダイナミクスを扱う。
- 多様なマルチソースTSデータは、インドメイン性能を強化し、単一データセットのベースラインよりクロスドメイン一般化を向上させる。
- 完全なLLMは規模が大きいほど不可欠となり、トークンルーティングはデータ特性(シフトや遷移)と相関してLLM使用を示す。
- 情報量の多いプロンプトは一貫して性能を改善し、モデルサイズを超えた意味的指針を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。