[論文レビュー] Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting
本論文は、予測可能性と非定常性のバランスを取るための Non-stationary Transformers を Series Stationarization と De-stationary Attention で提案し、いくつかの Transformer 変種にわたる六つの実世界ベンチマークで最先端の結果を達成します。
Transformers have shown great power in time series forecasting due to their global-range modeling ability. However, their performance can degenerate terribly on non-stationary real-world data in which the joint distribution changes over time. Previous studies primarily adopt stationarization to attenuate the non-stationarity of original series for better predictability. But the stationarized series deprived of inherent non-stationarity can be less instructive for real-world bursty events forecasting. This problem, termed over-stationarization in this paper, leads Transformers to generate indistinguishable temporal attentions for different series and impedes the predictive capability of deep models. To tackle the dilemma between series predictability and model capability, we propose Non-stationary Transformers as a generic framework with two interdependent modules: Series Stationarization and De-stationary Attention. Concretely, Series Stationarization unifies the statistics of each input and converts the output with restored statistics for better predictability. To address the over-stationarization problem, De-stationary Attention is devised to recover the intrinsic non-stationary information into temporal dependencies by approximating distinguishable attentions learned from raw series. Our Non-stationary Transformers framework consistently boosts mainstream Transformers by a large margin, which reduces MSE by 49.43% on Transformer, 47.34% on Informer, and 46.89% on Reformer, making them the state-of-the-art in time series forecasting. Code is available at this repository: https://github.com/thuml/Nonstationary_Transformers.
研究の動機と目的
- 直線的な stationarization が過度の定常化を引き起こし、非定常データ上で Transformer の能力を制限する可能性がある、という主張。
- Series Stationarization と De-stationary Attention を組み合わせた汎用的なフレームワークを導入する。
- このフレームワークが複数の実世界データセットにわたって Transformer ベースのモデルを強化することを示す。
- フレームワークが強力な経験的成果を挙げ、既存の Transformer 変種との広範な互換性を示す。
提案手法
- Series Stationarization は、スライディングウィンドウ正規化を通じて各入力時系列を正規化し、出力を元の統計量に戻す(非正規化)ことで回復する。
- De-stationary Attention は、生データ系列の統計から非定常要因(tau と Delta)を学習し、MLP プロジェクターを介して注意機構に再組み込み、非定常性を取り戻す。
- Self-attention の入力は、正規化されたデータから Q', K', V' に変換され、非定常要因を適用して非定常依存性を回復する(式(6))。
- このフレームワークは基盤の Transformer(Encoder-Decoder)を包み、標準の Attention を De-stationary Attention に置換して効率を保つ。
- このアプローチは、Attention 项の微小な修正で、Transformer、Informer、Reformer、Autoformer などの変種と互換性がある(付録の参照)。
実験結果
リサーチクエスチョン
- RQ1stationalization(stationarization)が、重要な非定常信号を失うことなく短期的な予測可能性を改善できるか?
- RQ2軽量な De-stationary Attention メカニズムは、stationarization 中に失われた非定常情報を回復できるか?
- RQ3提案モジュールは、複数の Transformer アーキテクチャと実世界データセットにわたって一般化可能か?
- RQ4多様なドメインにまたがる非定常時系列予測に対するフレームワークの経験的影響はどの程度か?
主な発見
- フレームワークは、複数の予測ホライズンにわたり六つの実世界ベンチマークでベースラインの Transformers を一貫して改善する。
- 高度に非定常なデータにおいて、手法は大幅な MSE の改善を達成する(例:Transformer 約49%、Informer 約47%、Reformer 約47% の報告結果)。
- Series Stationarization は入力系列間の統計的性質を整え、De-stationary Attention はイベント性のある時間的依存性を捉えるために非定常性を再導入する。
- 四つの主流の Transformer にわたり、フレームワークは大幅な平均性能向上をもたらす(例:avg MSE の向上:Transformer 約49.43%、Informer 約47.34%、Reformer 約46.89%、Autoformer 約10.57%)。
- De-stationary Attention コンポーネントは過度の定常化を大幅に緩和し、地真の非定常ダイナミクスに近い予測を生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。