[论文解读] Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning
VeriTime 构建了一个数据合成、过程可验证的时间序列推理管道(TSRgen)以及通过数据调度进行微调的两阶段强化学习,以定制化 LLMs 进行时间序列推理,从而使较小的模型达到有竞争力的时间序列推理性能。
Time series is a pervasive data type across various application domains, rendering the reasonable solving of diverse time series tasks a long-standing goal. Recent advances in large language models (LLMs), especially their reasoning abilities unlocked through reinforcement learning (RL), have opened new opportunities for tackling tasks with long Chain-of-Thought (CoT) reasoning. However, leveraging LLM reasoning for time series remains in its infancy, hindered by the absence of carefully curated time series CoT data for training, limited data efficiency caused by underexplored data scheduling, and the lack of RL algorithms tailored for exploiting such time series CoT data. In this paper, we introduce VeriTime, a framework that tailors LLMs for time series reasoning through data synthesis, data scheduling, and RL training. First, we propose a data synthesis pipeline that constructs a TS-text multimodal dataset with process-verifiable annotations. Second, we design a data scheduling mechanism that arranges training samples according to a principled hierarchy of difficulty and task taxonomy. Third, we develop a two-stage reinforcement finetuning featuring fine-grained, multi-objective rewards that leverage verifiable process-level CoT data. Extensive experiments show that VeriTime substantially boosts LLM performance across diverse time series reasoning tasks. Notably, it enables compact 3B, 4B models to achieve reasoning capabilities on par with or exceeding those of larger proprietary LLMs.
研究动机与目标
- 提升对时间序列推理的需求的认识,并识别数据质量、数据效率和任务特定 RL 的差距。
- 提出 TSRgen,以生成具有过程可验证注释的 TS-文本多模态推理数据集(TSRBench)。
- 介绍 VeriTime:一个具有数据调度的两阶段强化学习微调框架,优化中间推理步骤与最终准确性。
- 证明 VeriTime 在多样化任务中提升时间序列推理能力,并使较小的 LLM 超越更大的基线模型。
提出的方法
- TSRgen 管道通过将合成时间序列与真实世界时间序列相结合来生成时间序列推理数据;应用面向 TS 的 Chain-of-Thought 以创建过程可验证的推理轨迹;使用基于规则的提取器和 DeepSeek-R1 进行推理;将样本、任务、轨迹和可验证标签整合到 TSRBench。
- 面向 TS 的 CoT 包含从任务意图到最终摘要的六个有序步骤,以确保可追溯的推理。
- VeriTime 使用两阶段 RL 微调:阶段1 在面向 TS 的 CoT 轨迹上进行 SFT;阶段2 使用多目标奖励的 RL,包含过程级信号和最终准确性。
- 一种选择性滚出数据调度策略将 TSRBench 任务按难度和模型表现进行分区,以在 SFT 与 RL 之间分配数据,从而提升效率与有效性。
- 奖励设计包括结构性奖励(格式与长度)、硬性奖励(最终答案正确性),以及四个过程奖励(任务理解、模式识别、答案对齐与答案验证)。
- 评估将 VeriTime 与 TSRBench 及其他时间序列基准相比对,并分析面向 TS 的 CoT 的有效性与数据调度。

实验结果
研究问题
- RQ1RQ1: VeriTime 在多样化时间序列推理任务中对 LLM 性能提升有多大?
- RQ2RQ2: 面向 TS 的 Chain-of-Thought 是否增强了 LLM 的时间序列推理能力?
- RQ3RQ3: 多目标奖励设计对逐步推理质量有何影响?
- RQ4RQ4: 数据调度对性能与效率的权衡有何影响?
主要发现
- VeriTime 在各任务上带来显著提升,例如平均提升超过35%,并使 3B–4B 模型达到与更大专有 LLM 相媲美的水平。
- TSRgen 创建了 TSRBench,这是首个具有可验证多步 CoT 和过程级注释的时间序列推理数据集。
- 两阶段 RL 与细粒度奖励在最终准确性和中间推理有效性方面均有提升;移除奖励会显著下降。
- 数据调度提高了效率和性能,在场景化任务中模型引导的数据分配优于全 RL,而在知识型任务中 RL 仍有益处。
- 面向 TS 的 CoT 平均减少了约71%的标记使用,同时保持或提升了准确性。
- VeriTime 在 TimeSeriesExam 和 DROP 基准上也显示出强劲提升,表明对合成数据与数值推理任务具有泛化性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。