[論文レビュー] CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning
CALF は、静的および動的知識蒸留を通じて事前訓練済みLLMの埋め込みと時系列の時間系列を整合させるクロスモーダル微調整フレームワークを導入し、長期および短期予測の両方で最先端の結果を達成し、一般化を向上させる。
Deep learning (e.g., Transformer) has been widely and successfully used in multivariate time series forecasting (MTSF). Unlike existing methods that focus on training models from a single modal of time series input, large language models (LLMs) based MTSF methods with cross-modal text and time series input have recently shown great superiority, especially with limited temporal data. However, current LLM-based MTSF methods usually focus on adapting and fine-tuning LLMs, while neglecting the distribution discrepancy between textual and temporal input tokens, thus leading to sub-optimal performance. To address this issue, we propose a novel Cross-Modal LLM Fine-Tuning (CALF) framework for MTSF by reducing the distribution discrepancy between textual and temporal data, which mainly consists of the temporal target branch with temporal input and the textual source branch with aligned textual input. To reduce the distribution discrepancy, we develop the cross-modal match module to first align cross-modal input distributions. Additionally, to minimize the modality distribution gap in both feature and output spaces, feature regularization loss is developed to align the intermediate features between the two branches for better weight updates, while output consistency loss is introduced to allow the output representations of both branches to correspond effectively. Thanks to the modality alignment, CALF establishes state-of-the-art performance for both long-term and short-term forecasting tasks with low computational complexity, and exhibiting favorable few-shot and zero-shot abilities similar to that in LLMs. Code is available at https://github.com/Hank0626/LLaTA.
研究の動機と目的
- 時系列データとテキスト的LLM表現とのモダリティ間ギャップを橋渡しする動機付けを行い、予測の一般化を改善する。
- 静的(埋め込み空間)および動的(文脈的)LLM知識を、時系列予測モデルへ転移させるためにクロスモーダル知識蒸留を活用する。
- 時系列データ処理をLLMベースのテキスト知識と統合する2枝分岐アーキテクチャを設計する。
- 崩壊的忘却を起こさず効果的な転移を可能にする訓練損失と効率化戦略を開発する。
提案手法
- テキストモーダル分岐(LLMベース)と時系列処理分岐(時間系列処理)を備えた二枝分岐フレームワーク。
- 静的知識学習はPCAを用いて語嵌入を圧縮し、クロスアテンションで投影された時間トークンを主要語嶄入と整列させ、LLM分岐用の整列済みテキストトークンを生成する。
- 動的知識学習は2つの蒸留損失を用いる:(i)特徴正則化でモダリティ間の中間表現を整合させる、(ii)モーダル整合性損失で両分岐の出力を整合させる。
- 全訓練損失は監督付き損失と2つの蒸留損失を組み合わせる:L_total = L_sup + lambda1 L_output + lambda2 L_feature。
- パラメータ効率の訓練にはLoRAと時系列分岐の位置エンコーディングのファインチューニングを使用する。
- 真の監督とモーダル整合損失が、テキストから時系列分岐への知識転送を導く。
実験結果
リサーチクエスチョン
- RQ1クロスモーダル知識蒸留は、時系列とテキスト埋め込み間のモダリティギャップを縮小して予測性能を向上させることができるか?
- RQ2事前訓練済みLLMの静的(埋め込みベース)および動的(文脈的)知識をどのように活用して時系列予測と一般化を高めるか?
- RQ3クロスモーダル整合を強制し、微調整中の忘却を防ぐ効果的な損失設計は何か?
- RQ4提案されたLLaTAフレームワークは、長期・短期、および少数/ゼロショット予測シナリオで最先端性能を達成するか?
主な発見
- LLaTAは複数の実世界データセットにおいて長期予測と短期予測の両方で最先端性能を達成する。
- 長期予測では、多くの評価でトップの結果を出し、PatchTSTやGPT4TSなどの強力なベースラインを一貫して上回る。
- 短期予測ではM4データセットで14カテゴリで最高結果を達成し、主要手法を上回る。
- LLaTAは強力な少数ショットおよびゼロショットの一般化を示し、ドメイン横断転送シナリオでベースラインを上回る。
- アブレーション研究は、監督付き、特徴正則化、およびモーダル整合性損失を組み合わせると、テストデータセットで最良のMSE/MAE性能を得ることを確認した。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。