[論文レビュー] SST: Multi-Scale Hybrid Mamba-Transformer Experts for Time Series Forecasting
長期および短期の依存関係を捉えるハイブリッドMamba-TransformerアーキテクチャのMambaformerを提案し、実データセットでMambaおよびTransformerより優れた性能を示す。
Time series forecasting has made significant advances, including with Transformer-based models. The attention mechanism in Transformer effectively captures temporal dependencies by attending to all past inputs simultaneously. However, its quadratic complexity with respect to sequence length limits the scalability for long-range modeling. Recent state space models (SSMs) such as Mamba offer a promising alternative by achieving linear complexity without attention. Yet, Mamba compresses historical information into a fixed-size latent state, potentially causing information loss and limiting representational effectiveness. This raises a key research question: Can we design a hybrid Mamba-Transformer architecture that is both effective and efficient for time series forecasting? To address it, we adapt a hybrid Mamba-Transformer architecture Mambaformer, originally proposed for language modeling, to the time series domain. Preliminary experiments reveal that naively stacking Mamba and Transformer layers in Mambaformer is suboptimal for time series forecasting, due to an information interference problem. To mitigate this issue, we introduce a new time series decomposition strategy that separates time series into long-range patterns and short-range variations. Then we show that Mamba excels at capturing long-term structures, while Transformer is more effective at modeling short-term dynamics. Building on this insight, we propose State Space Transformer (SST), a multi-scale hybrid model with expert modules: a Mamba expert for long-range patterns and a Transformer expert for short-term variations. SST also employs a multi-scale patching mechanism to adaptively adjust time series resolution: low resolution for long-term patterns and high resolution for short-term variations. Experiments show that SST obtains SOTA performance with linear scalability. The code is at https://github.com/XiongxiaoXu/SST.
研究の動機と目的
- 長距離と短距離の依存関係の両方を用いた時系列予測を動機づける。
- 時系列データのためのハイブリッドMamba-Transformerアーキテクチャ(Mambaformer)を導入する。
- Mambaformerがベンチマークデータセット上でMambaおよびTransformerの両方を上回ることを示す。
提案手法
- トークンおよび時刻埋め込みを用いて時系列データを埋め込む。
- 明示的な位置エンコーディングなしに位置情報を注入するため、Mambaブロックで埋め込みを前処理する。
- デコーダー専用のMambaformerレイヤ内でMamba層と自己注意層を交互に配置し、長期と短期のモデリングを融合する。
- 最終的な線形層で埋め込みを元の特徴空間へ戻して予測する。
実験結果
リサーチクエスチョン
- RQ1ハイブリッドMamba-Transformerアーキテクチャは、Mamba単独またはTransformer単独を用いる場合より、長短期の時系列予測を改善できるか。
- RQ2Mambaブロックを用いた前処理は、時系列予測における明示的な位置エンコーディングの必要性を低減または排除できるか。
主な発見
| 方法 | ETTh1 MSE | ETTh1 MAE | Electricity MSE | Electricity MAE | Exchange Rate MSE | Exchange Rate MAE |
|---|---|---|---|---|---|---|
| Mambaformer | 0.962 | 0.721 | 0.317 | 0.386 | 1.878 | 1.123 |
| Attention-Mamba | 0.995 | 0.792 | 0.349 | 0.409 | 2.029 | 1.126 |
| Mamba-Attention | 0.973 | 0.727 | 0.327 | 0.404 | 2.317 | 1.238 |
| Mamba | 1.417 | 0.914 | 0.322 | 0.400 | 2.423 | 1.174 |
| Transformer | 0.991 | 0.790 | 0.355 | 0.414 | 2.173 | 1.165 |
- Mambaformerは実データの多変量時系列データセットで、MambaおよびTransformerより優れた予測性能を発揮する。
- Mambaformerファミリー内で最良の結果を達成しており、長期と短期のモデリングの統合が効果的であることを示す。
- Mambaと注意機構レイヤの交互配置の順序(ハイブリッド変種)は同等の性能を示し、アーキテクチャ設計の柔軟性を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。