[論文レビュー] Large Language Models Are Zero-Shot Time Series Forecasters
paper demonstrates that large language models can forecast time series in a zero-shot setting by encoding numbers as text and treating forecasting as next-token text generation, achieving competitive or superior results to purpose-built models without fine-tuning.
By encoding time series as a string of numerical digits, we can frame time series forecasting as next-token prediction in text. Developing this approach, we find that large language models (LLMs) such as GPT-3 and LLaMA-2 can surprisingly zero-shot extrapolate time series at a level comparable to or exceeding the performance of purpose-built time series models trained on the downstream tasks. To facilitate this performance, we propose procedures for effectively tokenizing time series data and converting discrete distributions over tokens into highly flexible densities over continuous values. We argue the success of LLMs for time series stems from their ability to naturally represent multimodal distributions, in conjunction with biases for simplicity, and repetition, which align with the salient features in many time series, such as repeated seasonal trends. We also show how LLMs can naturally handle missing data without imputation through non-numerical text, accommodate textual side information, and answer questions to help explain predictions. While we find that increasing model size generally improves performance on time series, we show GPT-4 can perform worse than GPT-3 because of how it tokenizes numbers, and poor uncertainty calibration, which is likely the result of alignment interventions such as RLHF.
研究の動機と目的
- LLMs が微調整なしで時系列データをゼロショット forecasting できることを示す。
- 数値シーケンスのトークン化と連続密度マッピングを効果的に開発する。
- LLMs が時系列における多モーダル分布と不確実性を捉えることを示す。
- prompting による欠損データ、サイド情報、説明機能の取り扱いを探る。
- モデルの規模とアラインメントが forecasting 性能と不確実性のキャリブレーションへ与える影響を分析する。
提案手法
- 時系列を文字列として数値桁の連なりとしてエンコードし、LLMs の次のトークン予測を行う。
- 安定した算術演算とモデル間でのパターン学習を保証する数値トークン化戦略を設計する(例:桁レベルのトークン化、スペース、カンマ区切り)。
- 離散的なトークン分布を階層的な一様ビンの混合として連続密度に変換し、確率予測と尤度の推定を可能にする。
- 連続的な尤度を近似するために各桁ベースのビンに一様分布を配置し、元の空間へ再スケーリングする変数変換を適用する。
- LLM から複数の未来をサンプリングし、点予測と確率予測(分位点、CRPS、NLL)を形成する。
- ゼロショットの LLM 予測を複数のデータセットで標準的な時系列ベースラインと比較し、モデル間のキャリブレーションを分析する。
実験結果
リサーチクエスチョン
- RQ1数値がテキストとしてエンコードされている場合、事前学習済みの LLM はファインチューニングなしで時系列予測を実行できるか。
- RQ2LLMs で予測精度と安定した数値推論を最大化するには時系列データをどのようにトークン化すべきか。
- RQ3LLMs は時系列の確率的予測と不確実性推定を適切に提供できるか。
- RQ4モデル規模とアラインメント(例:RLHF)が forecasting 性能と不確実性キャリブレーションに与える影響は何か。
- RQ5欠損データ、テキストのサイド情報、説明のプロンプトは LLM での予測にどのような影響を与えるか。
主な発見
- LLMTime はゼロショット予測で多様なデータセットにおいて目的別の時系列手法を凌駕するか、同等である。
- 適切な数値トークン化とリスケーリングは、LLMs の良好な性能と数値推論にとって重要である。
- LLMs は桁ベースの連続密度を通じて多モーダルかつ不確実な継続を表現でき、確率的予測を改善する。
- GPT-3 と LLaMA-2 70B は強い決定的性能を示し、NLL や CRPS などの確率的指標がベースラインを上回ることが多い。
- GPT-4 やチャット型 LLMs はアラインメント介入(RLHF)やトークン化の癖のため、キャリブレーションや予測性能が劣る場合がある。
- 不確実性の表現は基盤モデルの品質とともに向上し、ゼロショット性能はモデルサイズとともにスケールする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。