Skip to main content
QUICK REVIEW

[論文レビュー] Unified Training of Universal Time Series Forecasting Transformers

Gerald Woo, Chenghao Liu|arXiv (Cornell University)|Feb 4, 2024
Time Series Analysis and Forecasting被引用数 31
ひとこと要約

Moirai を導入し、LOTSAで訓練されたマスクドエンコーダーベースの普遍的時系列予測トランスフォーマーで、クロス周波数、任意の変量入力、柔軟な予測分布に対応し、ゼロショットで強力、様々なデータセットで競争力のあるフルショット結果を達成する。

ABSTRACT

Deep learning for time series forecasting has traditionally operated within a one-model-per-dataset framework, limiting its potential to leverage the game-changing impact of large pre-trained models. The concept of universal forecasting, emerging from pre-training on a vast collection of time series datasets, envisions a single Large Time Series Model capable of addressing diverse downstream forecasting tasks. However, constructing such a model poses unique challenges specific to time series data: i) cross-frequency learning, ii) accommodating an arbitrary number of variates for multivariate time series, and iii) addressing the varying distributional properties inherent in large-scale data. To address these challenges, we present novel enhancements to the conventional time series Transformer architecture, resulting in our proposed Masked Encoder-based Universal Time Series Forecasting Transformer (Moirai). Trained on our newly introduced Large-scale Open Time Series Archive (LOTSA) featuring over 27B observations across nine domains, Moirai achieves competitive or superior performance as a zero-shot forecaster when compared to full-shot models. Code, data, and model weights can be found at https://github.com/SalesforceAIResearch/uni2ts.

研究の動機と目的

  • データセットごとに1つのモデルで予測する方式から、普遍的で事前学習済みの時系列モデルへ移行する動機付け。
  • 普遍的予測におけるクロス周波数学習、任意の変量数、変動するデータ分布への対応。
  • 柔軟な周波数処理、任意変量入力、確率的出力を可能にするアーキテクチャと訓練の改善を開発。
  • 普遍的予測モデルを支援するための大規模な公開時系列アーカイブとして LOTSA を作成・公開。

提案手法

  • さまざまな周波数に対応するための複数パッチサイズの入力/出力射影を備えた Masked Encoder-based Universal Time Series Forecasting Transformer (Moirai) の開発。
  • バイナリ注意バイアスとロータリ位置エンベディングによる変变量対応エンコードを用いたフラット化された多変量時系列の処理を可能にする Any-variate Attention の導入。
  • 学生の t 分布、負の二項分布、対数正規分布、低分散正規分布などを組み合わせた混合分布を用いた確率的予測。
  • Moiraiを LOTSA 上で事前学習。九つのドメインにまたがる276億観測の公開時系列アーカイブで、サブデータセットと可変な文脈/予測ウィンドウをサンプリングするデータ/タスク分布。
  • ゼロショット一般化を可能にするために、シーケンスパッキング、異なる文脈長、ベータ-二項分布による変量サンプリングを含む統一的な訓練戦略を採用。
Figure 1 : A universal forecaster is a large pre-trained model capable of handling any time series forecasting problem. It is trained on a large-scale time series dataset spanning multiple domains. Compared to the existing paradigm, universal forecasting faces the three key issues of $i)$ multiple f
Figure 1 : A universal forecaster is a large pre-trained model capable of handling any time series forecasting problem. It is trained on a large-scale time series dataset spanning multiple domains. Compared to the existing paradigm, universal forecasting faces the three key issues of $i)$ multiple f

実験結果

リサーチクエスチョン

  • RQ1LOTSA の多様なデータで訓練された単一の大規模時系列モデルが、複数のデータセットと周波数に対してゼロショット予測を実行できるか?
  • RQ2アーキテクチャの革新(Any-variate Attention、マルチパッチサイズ射影)と混合分布が、データセット特有のモデルより普遍的予測性能を向上させるか?
  • RQ3Moirai は分布内(In-distribution)対分布外(ゼロショット)の設定で、完全ショットのベースラインと比べてどうか?
  • RQ4LOTSA の規模と訓練戦略(パッキング、タスクサンプリング)がドメイン間一般化に与える影響は?
  • RQ5長い・短いシーケンスデータセットのゼロショット予測性能に対して、文脈長はどう影響するか?

主な発見

  • Moirai ベースおよび大規模は、未知データセットに対してゼロショット性能が競合・上回る。
  • Monash/Monash風のベースラインと比較して、Moirai は単一モデルで多様なドメインにおける分布内評価で優れる。
  • Moirai は複数データセットで強力なゼロショット確率予測を示し、時には最先端の完全ショット手法に匹敵する、または凌ぐ。
  • マルチパッチサイズ、Any-variate Attention、柔軟な混合分布の重要性を示すアブレーション。
  • 長いシーケンス予測の結果は、予測長の違いに対して競争力を維持できることを示し、タスクごとにモデルサイズの効果はニュアンスがある。
Figure 2 : Overall architecture of Moirai . Visualized is a 3-variate time series, where variates 0 and 1 are target variables (i.e. to be forecasted, and variate 2 is a dynamic covariate (values in forecast horizon known). Based on a patch size of 64, each variate is patchified into 3 tokens. The p
Figure 2 : Overall architecture of Moirai . Visualized is a 3-variate time series, where variates 0 and 1 are target variables (i.e. to be forecasted, and variate 2 is a dynamic covariate (values in forecast horizon known). Based on a patch size of 64, each variate is patchified into 3 tokens. The p

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。