[論文レビュー] TimeSqueeze: Dynamic Patching for Efficient Time Series Forecasting
TimeSqueezeは、軽量な状態空間エンコーダの上に動的でコンテンツ認識的なパッチ処理機構を導入し、Transformerバックボーンの可変長トークンを生成して、予測精度を維持または向上させつつ大幅な効率化を実現する。
Transformer-based time series foundation models face a fundamental trade-off in choice of tokenization: point-wise embeddings preserve temporal fidelity but scale poorly with sequence length, whereas fixed-length patching improves efficiency by imposing uniform boundaries that may disrupt natural transitions and blur informative local dynamics. In order to address these limitations, we introduce TimeSqueeze, a dynamic patching mechanism that adaptively selects patch boundaries within each sequence based on local signal complexity. TimeSqueeze first applies a lightweight state-space encoder to extract full-resolution point-wise features, then performs content-aware segmentation by allocating short patches to information-dense regions and long patches to smooth or redundant segments. This variable-resolution compression preserves critical temporal structure while substantially reducing the token sequence presented to the Transformer backbone. Specifically for large-scale pretraining, TimeSqueeze attains up to 20x faster convergence and 8x higher data efficiency compared to equivalent point-token baselines. Experiments across long-horizon forecasting benchmarks show that TimeSqueeze consistently outperforms comparable architectures that use either point-wise tokenization or fixed-size patching.
研究の動機と目的
- 長距離時系列予測の計算量とメモリ負荷を削減する。
- 入力表現を適応的に圧縮しつつ顕著な時間的ダイナミクスを保持する。
- 精度を損なうことなく大規模な時系列ファウンデーションモデルのスケーラブルな事前学習を可能にする。
- さまざまなTransformerバックボーンと事前学習データセットへの適合性を示す。
提案手法
- 軽量な状態空間モデル(SSM)エンコーダを用いて全解像度の局所特徴を抽出する。
- 情報密度の高い領域には短いパッチを、滑らかな領域には長いパッチを割り当てるコンテンツ認識的動的パッチ処理を適用する。
- ダウンサンプル化されたパッチベースの埋め込みをデコーダ専用のMixture-of-Experts(MoE)Transformerバックボーンに渡す。
- 因果性を保持したまま圧縮表現を復元するアンパッチングモジュールを使用する。
- 自己回帰損失と補助的な負荷均衡損失を組み合わせた複合損失で多視点予測ヘッドを用いて訓練する。
- パッチ処理閾値を用いて平均圧縮率を約4xにターゲットとし、実データと合成データを混在させたTime-300Bで事前学習する。

実験結果
リサーチクエスチョン
- RQ1ダイナミックでコンテンツ認識的なパッチ処理は、固定サイズパッチ処理や点ごとのトークン化と比べて予測精度を損なうことなく効率を改善するか。
- RQ2TimeSqueezeは異なる Transformer バックボーンと事前学習データ regimeとどの程度統合できるか。
- RQ3TimeSqueezeを使用した場合、事前学習コンテキスト長が下流の予測性能に及ぼす影響はどの程度か。
- RQ4ダウンサンプルとアップサンプル中にTimeSqueezeは因果整合性と時系列忠実度を維持できるか。
主な発見
- TimeSqueezeは点トークンベースの基準より、最大20xの高速な事前学習収束と8xのデータ効率を達成する。
- 長期 horizons のベンチマーク全体で、TimeSqueezeは点ごとトークン化または固定サイズパッチ処理を用いるアーキテクチャを一貫して上回る。
- ゼロショット結果では、TimeSqueezeが標準的な長期予測データセットでTime-MoEの性能に近づく。
- TimeSqueezeはファインチューニング時にも強力なフルショット性能を維持し、しばしば複数の最先端ベースラインを上回る。
- 効率性の比較では、TimeSqueezeは特定の予算で最大3.4xのメモリ節約と約20xの訓練時間短縮を実現し、長距離予測で最大10.5xの推論スループット向上を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。