[论文解读] One Fits All:Power General Time Series Analysis by Pretrained LM
本论文证明,来自 NLP/CV 的冻结预训练变换器通过仅微调轻量级组件即可在多样的时间序列任务中达到最先进或具有竞争力的性能。它还分析自注意力行为并将其与 PCA 关联,以解释跨域的普适性。
Although we have witnessed great success of pre-trained models in natural language processing (NLP) and computer vision (CV), limited progress has been made for general time series analysis. Unlike NLP and CV where a unified model can be used to perform different tasks, specially designed approach still dominates in each time series analysis task such as classification, anomaly detection, forecasting, and few-shot learning. The main challenge that blocks the development of pre-trained model for time series analysis is the lack of a large amount of data for training. In this work, we address this challenge by leveraging language or CV models, pre-trained from billions of tokens, for time series analysis. Specifically, we refrain from altering the self-attention and feedforward layers of the residual blocks in the pre-trained language or image model. This model, known as the Frozen Pretrained Transformer (FPT), is evaluated through fine-tuning on all major types of tasks involving time series. Our results demonstrate that pre-trained models on natural language or images can lead to a comparable or state-of-the-art performance in all main time series analysis tasks, as illustrated in Figure 1. We also found both theoretically and empirically that the self-attention module behaviors similarly to principle component analysis (PCA), an observation that helps explains how transformer bridges the domain gap and a crucial step towards understanding the universality of a pre-trained transformer.The code is publicly available at https://github.com/DAMO-DI-ML/One_Fits_All.
研究动机与目标
- 以在大规模语言或视觉数据上训练的基础模型来激发和支持通用时间序列分析。
- 提出一个统一框架,在不修改核心注意力/FFN 块的情况下,将冻结的预训练变换器适配到时间序列任务。
- 展示跨域预训练模型在多种时间序列任务上达到与最先进结果相竞争的性能。
- 提供理论和经验洞见,解释自注意力为何类似于 PCA 的表示并在跨域中实现普遍性。
提出的方法
- 在时间序列任务中使用冻结的预训练变换器(GPT-2 骨干),冻结自注意力和 FFN 块,同时仅训练嵌入、归一化和输出层。
- 设计一个输入嵌入层,通过线性探针将时间序列投射到预训练模型中。
- 应用数据归一化和打补丁机制,形成基于补丁的标记以获得局部语义信息。
- 在多样的时间序列任务上微调模型(分类、短期/长期预测、插补、异常检测、少样本/零样本预测)。
- 尝试多种预训练骨干网络(GPT-2、BERT、BEiT),以证明跨域普遍性。
实验结果
研究问题
- RQ1在不改变核心变换器块的情况下,冻结的预训练语言/视觉变换器是否能够在通用时间序列分析任务上实现具有竞争力的性能?
- RQ2跨域预训练知识迁移在多大程度上能够提升时间序列预测、分类、异常检测和插补?
- RQ3为何预训练变换器中的自注意力可能模拟类似 PCA 的表示,从而支持跨域的普遍计算?
- RQ4跨模态预训练模型(语言、视觉)是否为时间序列任务提供普遍的有效性,包括零样本和少样本情境?
主要发现
- GPT2-backbone FPT 在主要时间序列任务上达到与之并驾齐驱或最先进的性能,包括预测、分类、异常检测和插补。
- 插补实验表明 GPT2(3) FPT 往往提供最佳结果,在若干数据集上将均方误差显著降低。
- 分类和异常检测结果表明 GPT2(6) FPT 在多个基准和数据集上优于或等于基线。
- 少样本和零样本预测表明 GPT2(6) FPT 在没有大量任务特定数据的情况下仍保持强劲性能。
- 分析表明自注意力的行为类似于 PCA,为变换器注意力与主成分之间提供理论联系,支持普遍性主张。
- 使用 BERT 和 BEiT 骨干网络的实验表明跨域预训练模型在时间序列任务中的普遍性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。