[论文解读] TimeSqueeze: Dynamic Patching for Efficient Time Series Forecasting
TimeSqueeze 在轻量级状态空间编码器之上引入动态、内容感知的补丁化机制,生成Transformer骨干可变长度的令牌,在保持或提升预测准确性的同时实现显著的效率提升。
Transformer-based time series foundation models face a fundamental trade-off in choice of tokenization: point-wise embeddings preserve temporal fidelity but scale poorly with sequence length, whereas fixed-length patching improves efficiency by imposing uniform boundaries that may disrupt natural transitions and blur informative local dynamics. In order to address these limitations, we introduce TimeSqueeze, a dynamic patching mechanism that adaptively selects patch boundaries within each sequence based on local signal complexity. TimeSqueeze first applies a lightweight state-space encoder to extract full-resolution point-wise features, then performs content-aware segmentation by allocating short patches to information-dense regions and long patches to smooth or redundant segments. This variable-resolution compression preserves critical temporal structure while substantially reducing the token sequence presented to the Transformer backbone. Specifically for large-scale pretraining, TimeSqueeze attains up to 20x faster convergence and 8x higher data efficiency compared to equivalent point-token baselines. Experiments across long-horizon forecasting benchmarks show that TimeSqueeze consistently outperforms comparable architectures that use either point-wise tokenization or fixed-size patching.
研究动机与目标
- 降低长期上下文时间序列预测的计算和内存负担。
- 在自适应压缩输入表示的同时保留显著的时序动态。
- 在不牺牲准确性的前提下实现大型时间序列基础模型的可扩展预训练。
- 展示与多种Transformer骨干网络和预训练数据集的兼容性。
提出的方法
- 使用轻量级状态空间模型(SSM)编码器提取全分辨率的局部特征。
- 应用内容感知的动态补丁化,将信息密集区域分配短补丁,平滑区域分配长补丁。
- 将下采样、基于补丁的嵌入输入到解码器唯一的Mixture-of-Experts(MoE)Transformer骨干。
- 使用解补丁模块在保持因果性的前提下恢复压缩表示。
- 使用多步预测头进行训练,并将自回归损失与辅助负载均衡损失结合的复合损失函数进行训练。
- 在 Time-300B 上进行混合真实数据与合成数据的预训练,并使用补丁阈值实现目标约4x的平均压缩。

实验结果
研究问题
- RQ1相比固定大小的补丁化或逐点令牌化,动态、内容感知的补丁化是否在不牺牲预测准确性的前提下提高了效率?
- RQ2TimeSqueeze 与不同的Transformer骨干网络和预训练数据 regime 的集成效果如何?
- RQ3在使用 TimeSqueeze 时,预训练上下文长度对下游预测性能的影响是多少?
- RQ4在下采样和上采样过程中,TimeSqueeze 能否保持因果完整性与时序保真性?
主要发现
- TimeSqueeze 在预训练收敛速度上实现最高约20x的提升,在数据效率上比点令牌基线高8x。
- 在面向长时间跨度的基准测试中,TimeSqueeze 持续优于使用逐点令牌化或固定大小补丁化的架构。
- 零-shot 结果表明 TimeSqueeze 在标准长期预测数据集上接近 Time-MoE 的性能。
- TimeSqueeze 在微调时保持强大的全样本性能,常常超过若干前沿基线。
- 在不同预算下的效率对比显示 TimeSqueeze 内存需求最多降低至原来的3.4x,训练时间约下降至原来的1/20左右,对长时域推理的吞吐量提升可达约10.5x。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。