[论文解读] Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series
TTMs 是快速的小型预训练模型(≤1M 参数),用于零-shot/少-shot 多变量时间序列预测,在未见数据上通过自适应分块、下采样增强和分辨率前缀微调实现强泛化,同时相比基于大语言模型的时间序列模型显著降低计算量。
Large pre-trained models excel in zero/few-shot learning for language and vision tasks but face challenges in multivariate time series (TS) forecasting due to diverse data characteristics. Consequently, recent research efforts have focused on developing pre-trained TS forecasting models. These models, whether built from scratch or adapted from large language models (LLMs), excel in zero/few-shot forecasting tasks. However, they are limited by slow performance, high computational demands, and neglect of cross-channel and exogenous correlations. To address this, we introduce Tiny Time Mixers (TTM), a compact model (starting from 1M parameters) with effective transfer learning capabilities, trained exclusively on public TS datasets. TTM, based on the light-weight TSMixer architecture, incorporates innovations like adaptive patching, diverse resolution sampling, and resolution prefix tuning to handle pre-training on varied dataset resolutions with minimal model capacity. Additionally, it employs multi-level modeling to capture channel correlations and infuse exogenous signals during fine-tuning. TTM outperforms existing popular benchmarks in zero/few-shot forecasting by (4-40%), while reducing computational requirements significantly. Moreover, TTMs are lightweight and can be executed even on CPU-only machines, enhancing usability and fostering wider adoption in resource-constrained environments. The model weights for reproducibility and research use are available at https://huggingface.co/ibm/ttm-research-r2/, while enterprise-use weights under the Apache license can be accessed as follows: the initial TTM-Q variant at https://huggingface.co/ibm-granite/granite-timeseries-ttm-r1, and the latest variants (TTM-B, TTM-E, TTM-A) weights are available at https://huggingface.co/ibm-granite/granite-timeseries-ttm-r2.
研究动机与目标
- 在公开的预训练数据稀缺且多样化时,推动改进零-shot/少-shot 多变量时间序列预测。
- 提出一个在公开时间序列数据上训练、具备迁移能力的小型、通用的预训练模型。
- 引入处理多分辨率数据和跨数据集迁移的架构与训练增强。
- 展示在多个数据集上相对于大型基于LLM的时间序列方法的性能提升与计算效率。
提出的方法
- 构建基于轻量级 TSMixer 架构的多层级 TTM 主干。
- 在公开的时间序列数据集上以单变量方式对 TTMs 进行预训练,以学习一般的时间动力学。
- 应用自适应分块以跨层级处理多分辨率数据。
- 通过下采样的方式进行数据集增强,生成多种分辨率以用于预训练。
- 引入分辨率前缀微调,将分辨率信息嵌入到分块中。
- 使用一个能够启用通道混合的解码器以及外生混合器进行微调,以利用外生信号。
实验结果
研究问题
- RQ1一个仅在公开 TS 数据上训练的小型(≤1M 参数)预训练模型,是否能够在未见数据集上实现有竞争力的零/少-shot 预测?
- RQ2使用自适应分块和下采样进行的多分辨率预训练是否提升在多样化分辨率时间序列上的泛化能力?
- RQ3在微调阶段,解码器通道混合与外生融合是否提升多变量预测性能?
- RQ4TTMs 的迁移学习性能与计算开销在与标准基准中的大型基于LLM的时间序列方法相比如何?
主要发现
- TTMs 在少-shot/零-shot预测中,相较于流行的基准取得了12-38%的准确度提升。
- TTMs 在可学习参数方面减少14倍,在总参数方面减少106倍。
- 使用 TTMs 微调时间减少65X,推理时间减少54X,内存使用下降27X。
- 零-shot TTMs 在许多基准上往往超过少-shot结果,突显了从多样化的公开时间序列数据中实现的有效迁移学习。
- TTM-CM(解码器通道混合与外生融合)在外生/多变量数据集上领先竞争模型 15-44% 。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。