[论文解读] SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion
SOFTS 提出一个简单的基于 MLP 的多变量时间序列预测器,具有集中式 STAD 模块,在线性复杂度下实现最先进性能,取代注意力在许多模型中的作用。
Multivariate time series forecasting plays a crucial role in various fields such as finance, traffic management, energy, and healthcare. Recent studies have highlighted the advantages of channel independence to resist distribution drift but neglect channel correlations, limiting further enhancements. Several methods utilize mechanisms like attention or mixer to address this by capturing channel correlations, but they either introduce excessive complexity or rely too heavily on the correlation to achieve satisfactory results under distribution drifts, particularly with a large number of channels. Addressing this gap, this paper presents an efficient MLP-based model, the Series-cOre Fused Time Series forecaster (SOFTS), which incorporates a novel STar Aggregate-Redistribute (STAR) module. Unlike traditional approaches that manage channel interactions through distributed structures, extit{e.g.}, attention, STAR employs a centralized strategy to improve efficiency and reduce reliance on the quality of each channel. It aggregates all series to form a global core representation, which is then dispatched and fused with individual series representations to facilitate channel interactions effectively.SOFTS achieves superior performance over existing state-of-the-art methods with only linear complexity. The broad applicability of the STAR module across different forecasting models is also demonstrated empirically. For further research and development, we have made our code publicly available at https://github.com/Secilia-Cxy/SOFTS.
研究动机与目标
- 推动稳健的多变量预测,利用通道相关性而不产生二次复杂度。
- 提出 SOFTS,一个通过 STAD 模块实现线性复杂度的基于 MLP 的预测器。
- 证明 STAD 能在 transformer 基预测器中替代注意力,同时保持或提升性能。
- 展示对具有大量通道和回看长度的数据集的可扩展性。
提出的方法
- 通过系列嵌入将每个时间序列通道嵌入,得到 S0 在 R^{C x d}。
- 通过 STAD 层迭代地细化嵌入,这些层通过 MLP 和随机池化计算全局核心,然后通过 Repeat_Concat 将核心与每个通道进行融合,并用 MLP2 加上残差连接。
- STAD 提供了一种集中化交互模式,相较于基于注意力的模块将复杂度从二次降至线性。
- 使用线性预测器将最终通道表示映射到预测时长 H。
- 使用 ADAM 优化、MSE 损失,以及超参数包括回看 L=96,预测步长 {12,24,48,96}(PEMS)或 {96,192,336,720}(其他数据集)。
实验结果
研究问题
- RQ1集中化的 STAD 模块在保持线性可扩展性的同时,是否能有效捕捉通道间相关性?
- RQ2在 transformer 基础的预测器中用 STAD 替代注意力,能否保持或提升预测精度?
- RQ3SOFTS 在通道数量众多且回看窗口变化的数据集上的表现如何?
- RQ4与基于注意力的方法相比,STAD 对内存/时间效率的影响是什么?
- RQ5性能对超参数如隐藏维度 d、核维度 d'、层数 N 的敏感度如何?
主要发现
- SOFTS 在6个真实世界数据集上实现了与最先进水平相媲美的结果,且在通道数量和窗口长度上具有线性复杂度。
- STAD 将交互复杂度从二次降至线性,并在所有池化方法中保持或提升性能,其中随机池化表现最好。
- 在 PatchTST、iTransformer 和 Crossformer 中用 STAD 取代注意力可在若干数据集上维持或提升性能,凸显了 STAD 的普适性。
- SOFTS 可扩展到通道数量极多的数据集(例如 Traffic 有数百个通道),并在内存/时间特性方面相对于基于 Transformer 的模型表现良好。
- 扩大回看窗口通常会提升 SOFTS 的性能,且更大的隐藏维度和编码器深度有利于如 Traffic 和 PEMS 这类高度复杂的数据集。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。