[論文レビュー] Time Series Foundation Models as Strong Baselines in Transportation Forecasting: A Large-Scale Benchmark Analysis
本論文は時系列基盤モデル Chronos-2 をゼロショットのベースラインとして10の実世界交通データセットで評価し、最先端の予測性能と同等程度を示すとともに、タスク特異的な訓練なしで確率的予測を提供します。
Accurate forecasting of transportation dynamics is essential for urban mobility and infrastructure planning. Although recent work has achieved strong performance with deep learning models, these methods typically require dataset-specific training, architecture design and hyper-parameter tuning. This paper evaluates whether general-purpose time-series foundation models can serve as forecasters for transportation tasks by benchmarking the zero-shot performance of the state-of-the-art model, Chronos-2, across ten real-world datasets covering highway traffic volume and flow, urban traffic speed, bike-sharing demand, and electric vehicle charging station data. Under a consistent evaluation protocol, we find that, even without any task-specific fine-tuning, Chronos-2 delivers state-of-the-art or competitive accuracy across most datasets, frequently outperforming classical statistical baselines and specialized deep learning architectures, particularly at longer horizons. Beyond point forecasting, we evaluate its native probabilistic outputs using prediction-interval coverage and sharpness, demonstrating that Chronos-2 also provides useful uncertainty quantification without dataset-specific training. In general, this study supports the adoption of time-series foundation models as a key baseline for transportation forecasting research.
研究の動機と目的
- 一般目的の時系列基盤モデル(TS-FMs)が多様な交通タスクのゼロショ forecasterとして機能できるかを評価する。
- 高速道路・都市部交通、自転車シェアリング、EV充電データを含む10の実世界データセットでChronos-2をベンチマークする。
- 決定論的な精度(MAE、RMSE、MAPE)と確率的予測品質(キャリブレーションとシャープネス)を評価する。
- 交通予測研究における基準としてTS-FMsを実践的に活用するための指針を提供する。
提案手法
- Chronos-2(グループアテンションを備えたエンコーダのみのトランスフォーマーベースTS-FM)を用いて10の交通データセットでゼロショット予測を行う。
- モデルの中央値分位点から導出される標準的な指標(MAE、RMSE、MAPE)を用いたスライディングウィンドウによる一貫した評価プロTOCOLを維持する。
- Chronos-2のネイティブな21の分位点出力を活用して80%予測区間を形成し、キャリブレーションとシャープネスを評価する。
- 過去1週間の履歴を背景として提供し、データセットごとに背景トークン数を設定する。
- Chronos-2を古典的ベースラインや専門的なDLモデルと比較し、HAおよび最良のDL競合他社に対する改善を報告する。
実験結果
リサーチクエスチョン
- RQ1単一のTS-FM(Chronos-2)は、タスク特異的な微調整なしに、広範な交通予測タスクで最先端または競争力のある性能を達成できるか。
- RQ2長期予測においてゼロショットのChronos-2は従来のベースラインや専門モデルと比較してどの程度の性能を示すか。
- RQ3Chronos-2の確率的予測はデータセットを跨いで良いキャリブレーションとシャープネスを示すか。
- RQ4交通予測研究における標準的なベースラインとしてTS-FMsの実用性と可能性はどの程度か。
主な発見
- Chronos-2はほとんどのデータセットで決定論的予測(MAE、RMSE、MAPE)が最先端または非常に競争力があり、古典的およびDLベースラインを上回ることが多い。
- ゼロショットのChronos-2は長期的なホライズンで多くの自己回帰型やホライズン感度の高いモデルよりも精度を維持しやすい。
- Chronos-2は多くのデータセットでキャリブレーション80%近辺の意味ある確率的予測を提供し、シャープネスも高く、再訓練なしで不確実性の定量化が可能。
- 全体としてTS-FMsは堅牢で使いやすく(CPUフレンドリーな推論)、交通予測研究の標準的なベースラインとして適している。
- いくつかのデータセット特有のダイナミクス(例:METR-LA)では、空間隣接性を明示的に組み込むことで潜在的な利得があるが、それでもChronos-2の一般化の恩恵を受ける。
- UrbanEVの結果はラストオブザリッツゥベースラインに対する著しい改善を示し、EV関連予測へのTS-FMsの適用性を強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。