[論文レビュー] Diversified Scaling Inference in Time Series Foundation Models
要約: 論文は推論時の多様化(摂動入力と集約)を通じて、再訓練なしにTSFM予測を改善できる方法を探り、固定予算の下でヘッドルームを定量化する RobustMSE を導入する。
The advancement of Time Series Foundation Models (TSFMs) has been driven primarily by large-scale pre-training, but inference-time compute potential remains largely untapped. This work systematically investigates two questions: how do TSFMs behave under standard sampling-based inference scaling, and can controlled sampling diversity enhance performance? We first examine the properties of TSFMs under standard sampling often fail to adhere to scaling laws due to insufficient exploration of the solution space. Building on this, we then delve into diversified inference scaling via tailored time series perturbations to expand the generative distribution's support. We theoretically analyze the diversity-fidelity trade-off and derive a critical sample threshold for diversified sampling to outperform standard sampling. Extensive experiments across various TSFMs and datasets show proper diversified inference scaling yields substantial performance gains without parameter updates, establishing inference design as a critical, compute-efficient dimension of TSFM optimization. As an application, we propose RobustMSE, a rigorous metric to quantify the headroom performance of TSFM under a fixed budget. Overall, our findings clarify these factor interactions, enabling reliable performance via diverse large-scale inference time series in parallel environments without re-training TSFMs.
研究の動機と目的
- Time Series Foundation Models (TSFMs) における推論時の計算を動機づけ、特徴づける。
- モデルサイズ、文脈長、およびデコード戦略が TSFMs の推論スケーリングに与える影響を調査する。
- 予測分布の支持域を拡張するための入力の摂動による多様化サンプリングを開発・評価する。
- fidelity–diversity(忠実度と多様性)のトレードオフを理論的に分析し、多様化の臨界サンプル閾値を特定する。
- RobustMSE を、推論予算を固定したときのヘッドルームを定量化する指標として提案する。
提案手法
- TimesFM、Chronos、Time-MoE、Moirai などの TSFM とデータセット(ETTh1、ETt m1、Electricity、Traffic)に対する推論時スケーリングのモデル・データセット非依存の評価。
- 複数サンプルを集約するアグリゲータとして Exact Match (EM) および Majority Voting (MV) を定義。
- 入力 perturbations による多様化サンプリングを導入(タスク非依存およびタスク依存)し、その理論的利点とトレードオフを分析。
- 標準サンプリングと比較して、多様化が最小損失を厳密に改善する場合を漸近的・有限サンプルの観点から示す。
- 多様化サンプリングの利得を生む摂動を実証的に同定し、多様化サンプリングが標準サンプリングを上回る条件を確立する。
実験結果
リサーチクエスチョン
- RQ1TSFMs は大規模モデルのトレーニング時スケーリング則と同様の推論時スケーリングを示すのか?
- RQ2多様化した推論サンプリングは予測分布の有効な支持域を拡張し、固定予算の下で精度を改善するのか?
- RQ3多様化サンプリングにおける忠実度–多様性のトレードオフはどのようで、必要なサンプル予算にどう影響するのか?
- RQ4RobustMSE(推論を多様化した場合の固定予算ヘッドルームを定量化する頑健な指標)は TSFM のヘッドルームを評価できるのか?
主な発見
- TSFM における推論スケーリングはサンプル数を増やすと改善を生むが、単純な対数則には従わない。より大きなモデルが常に良いとは限らず、文脈長だけでは単調な利得は保証されない。
- 多様化サンプリングは予測の支持域を広げ、十分なサンプルがあれば標準的サンプリングを上回ることができる。ただし、摂動の関連性と忠実度に依存する。
- 臨界サンプル閾値 N* が存在し、それを超えると多様化サンプリングが標準サンプリングを期待値で上回る。リスクとリワードのトレードオフを浮き彫りにする。
- タスク非依存の摂動は効果にばらつきがあり、中には有害なものもあり除外される。関連性の高い摂動を選択する必要性(狭帯域のコサイン類似度)を示す。
- RobustMSE を固定予算のヘッドルーム指標として用いると、TSFM は多様化サンプリングを活用して予測誤差を低減できることが示され、TimesFM が多くのシナリオで最も低い RobustMSE を達成することが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。