[论文解读] Diversified Scaling Inference in Time Series Foundation Models
论文研究推理时分散化(经扰动输入和聚合)在不重新训练的情况下如何改进时间序列基础模型(TSFMs)的预测,并引入 RobustMSE 以在固定预算下量化剩余头空间。
The advancement of Time Series Foundation Models (TSFMs) has been driven primarily by large-scale pre-training, but inference-time compute potential remains largely untapped. This work systematically investigates two questions: how do TSFMs behave under standard sampling-based inference scaling, and can controlled sampling diversity enhance performance? We first examine the properties of TSFMs under standard sampling often fail to adhere to scaling laws due to insufficient exploration of the solution space. Building on this, we then delve into diversified inference scaling via tailored time series perturbations to expand the generative distribution's support. We theoretically analyze the diversity-fidelity trade-off and derive a critical sample threshold for diversified sampling to outperform standard sampling. Extensive experiments across various TSFMs and datasets show proper diversified inference scaling yields substantial performance gains without parameter updates, establishing inference design as a critical, compute-efficient dimension of TSFM optimization. As an application, we propose RobustMSE, a rigorous metric to quantify the headroom performance of TSFM under a fixed budget. Overall, our findings clarify these factor interactions, enabling reliable performance via diverse large-scale inference time series in parallel environments without re-training TSFMs.
研究动机与目标
- 激励并描述时间序列基础模型(TSFMs)中的推理时计算
- 研究模型规模、上下文长度和解码策略如何影响 TSFMs 的推理扩展性
- 通过对输入进行扰动来实现多样化采样并扩大预测的支撑
- 理论分析保真度–多样性权衡并识别多样化的临界样本阈值
- 提出 RobustMSE 作为在固定推理预算下量化头部空间的度量标准
提出的方法
- 对 TSFMs(TimesFM、Chronos、Time-MoE、Moirai)和数据集(ETTh1、ETt m1、Electricity、Traffic)进行与模型及数据集无关的推理时扩展性评估
- 定义采样策略,包括 Exact Match (EM) 与 Majority Voting (MV) 作为对多个样本的聚合器
- 通过对输入进行扰动实现多样化采样(与任务无关和与任务相关),并分析其理论收益与权衡
- 给出渐近和有限样本分析,说明何时多样化在最小损失上严格优于标准采样
- 在经验层面识别能带来收益的扰动并建立多样化采样优于标准采样的条件
实验结果
研究问题
- RQ1TSFMs 是否表现出与大模型训练时缩放定律相似的推理时扩展行为?
- RQ2在固定预算下,多样化推理采样是否能扩展预测分布的有效支撑并提升准确性?
- RQ3在多样化采样中,保真度–多样性权衡如何影响所需的样本预算?
- RQ4是否存在一个鲁棒、预算感知的度量来量化在多样化推理下 TSFMs 的头部空间(RobustMSE)?
主要发现
- TSFMs 的推理扩展性在样本增多时会提升,但并不遵循简单的对数律;更大的模型并不总是更好,仅靠上下文长度也不保证单调增益
- 多样化采样扩展了预测支撑,在足够样本下可以优于标准采样;但效果取决于扰动的相关性与保真度
- 存在一个临界样本阈值 N*,超过该阈值时多样化采样在期望意义上优于标准采样,体现出风险–回报权衡
- 任务无关扰动的有效性各异;有些扰动有害会被舍弃,凸显需要选择具有高相关性的扰动(在狭窄带内的余弦相似度)
- 将 RobustMSE 作为固定预算的头部空间度量显示 TSFMs 能利用多样化采样来降低预测误差,在多种情景下 TimesFM 往往实现最低的 RobustMSE
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。