QUICK REVIEW

[論文レビュー] Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting

Kashif Rasul, Arjun Ashok|arXiv (Cornell University)|Oct 12, 2023

Stock Market Forecasting Methods被引用数 32

ひとこと要約

Lag-Llama は、単変量確率的時系列予測のためのデコーダー専用トランスフォーマーのファウンデーションモデルで、広く多様なコーパスで事前学習されている。未見データセット全体に対して強力なゼロショット一般化と、未見データセットに対する最先端の少数ショット微調整性能を示す。

ABSTRACT

Over the past years, foundation models have caused a paradigm shift in machine learning due to their unprecedented capabilities for zero-shot and few-shot generalization. However, despite the success of foundation models in modalities such as natural language processing and computer vision, the development of foundation models for time series forecasting has lagged behind. We present Lag-Llama, a general-purpose foundation model for univariate probabilistic time series forecasting based on a decoder-only transformer architecture that uses lags as covariates. Lag-Llama is pretrained on a large corpus of diverse time series data from several domains, and demonstrates strong zero-shot generalization capabilities compared to a wide range of forecasting models on downstream datasets across domains. Moreover, when fine-tuned on relatively small fractions of such previously unseen datasets, Lag-Llama achieves state-of-the-art performance, outperforming prior deep learning approaches, emerging as the best general-purpose model on average. Lag-Llama serves as a strong contender to the current state-of-art in time series forecasting and paves the way for future advancements in foundation models tailored to time series data.

研究の動機と目的

確率的時系列予測のファウンデーションモデルの利用を動機づけ、さまざまな領域でのゼロショットおよび少数ショット転送を可能にする。
デコーダー専用トランスフォーマー内でラグ共変量を利用する、シンプルでスケーラブルなアーキテクチャを開発する。
単変量時系列の大規模で多様なコーパスを事前学習し、周波数とドメインを横断した一般化を検討する。
未知の下流データセットに対して、強力なベースラインと比較してゼロショット、ファインチューニング、少数ショット適応を評価する。

提案手法

ラグベースのトークン化と共変量を用いたデコーダー専用トランスフォーマー（LLaMA に触発）を使用する。
ラグ指標の所定セットと日付時刻共変量を用いてラグ特徴を構築する。
確率分布（Student's t）のパラメータを出力する分布ヘッドを介して訓練する。
スケーリングのために、シリーズごとの要約共変量（平均、標準偏差）を用いたロバスト標準化（中央値とIQR）を適用する。
6つのドメインにわたる 7,965 本の時系列（約352 百万ウィンドウ）を事前学習し、検証損失に基づく早期停止で未知のデータセットをファインチューニングする。
予測分布を生成する自己回帰サンプリングを介して評価し、CRPS を算出する。ゼロショットおよび少数ショットの性能を報告する。

実験結果

リサーチクエスチョン

RQ1ファウンデーションモデルを多様な時系列データセットで事前学習した場合、下流のファインチューニングを全く行わずに未知データへどの程度一般化できるか（ゼロショット）？
RQ2未知データセットでファインチューニングした後、Lag-Llama はどの程度の性能を達成し、データセット固有モデルや他の汎用モデルと比較してどうか？
RQ3新しいドメインからの歴史データが限られている場合、Lag-Llama は少数ショットの状況で効果的に適応できるか？
RQ4事前学習コーパスの多様性とサイズは Lag-Llama の予測性能とスケーリング挙動にどのような影響を与えるか？

主な発見

Lag-Llama は未知データセットで競争力のあるゼロショット性能を発揮する（データセット間の平均 CRPS ランキング 6.714）。
ファインチューニングされた Lag-Llama はいくつかのデータセットで最先端の性能を達成し、比較手法の中で最良の平均ランキング（2.786）を獲得。
Lag-Llama は多様なデータへ初期学習から適用した場合、Informer、AutoFormer、ETSFormer を含む多くのベースラインを凌駕する強力な汎用モデルとして機能する。
少数ショット設定（利用可能な履歴が 20–80% の範囲）でも Lag-Llama は一貫して強い適応を示し、履歴が増えるほど性能が向上することが多い。
Lag-Llama は未知の周波数とドメインに対応可能で、いくつかのドメイン（例：為替レート）でゼロショット性能が同程度に、ファインチューニング後にはSOTA近傍の性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。