Skip to main content
QUICK REVIEW

[論文レビュー] Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning

Jiahui Zhou, Dan Li|arXiv (Cornell University)|Feb 8, 2026
Topic Modeling被引用数 0
ひとこと要約

VeriTime はデータ合成・プロセス検証可能な時系列推論パイプライン(TSRgen)とデータスケジューリングを組み合わせた2段階のRLファインチューニングにより、TS推論のためにLLMを適合させ、より小さなモデルでも競合的なTS推論性能を発揮できるようにする。

ABSTRACT

Time series is a pervasive data type across various application domains, rendering the reasonable solving of diverse time series tasks a long-standing goal. Recent advances in large language models (LLMs), especially their reasoning abilities unlocked through reinforcement learning (RL), have opened new opportunities for tackling tasks with long Chain-of-Thought (CoT) reasoning. However, leveraging LLM reasoning for time series remains in its infancy, hindered by the absence of carefully curated time series CoT data for training, limited data efficiency caused by underexplored data scheduling, and the lack of RL algorithms tailored for exploiting such time series CoT data. In this paper, we introduce VeriTime, a framework that tailors LLMs for time series reasoning through data synthesis, data scheduling, and RL training. First, we propose a data synthesis pipeline that constructs a TS-text multimodal dataset with process-verifiable annotations. Second, we design a data scheduling mechanism that arranges training samples according to a principled hierarchy of difficulty and task taxonomy. Third, we develop a two-stage reinforcement finetuning featuring fine-grained, multi-objective rewards that leverage verifiable process-level CoT data. Extensive experiments show that VeriTime substantially boosts LLM performance across diverse time series reasoning tasks. Notably, it enables compact 3B, 4B models to achieve reasoning capabilities on par with or exceeding those of larger proprietary LLMs.

研究の動機と目的

  • LLMを用いた強化された時系列推論の必要性を動機づけ、データ品質・データ効率・タスク特化RLのギャップを特定する。
  • TS-テキスト多模態推論データセットとプロセス検証付きアノテーション(TSRBench)を生成する TSRgen を提案する。
  • VeriTime: 中間推論ステップと最終精度を最適化するデータスケジューリングを伴う2段階の強化学習ファインチューニング枠組み。
  • VeriTime が多様なタスクでTS推論を改善し、より小さなLLMが大規模なベースラインを上回るようにすることを示す。

提案手法

  • TSRgen パイプラインは合成データと実世界データを組み合わせて Time Series Reasoning データを生成する。TS 脳内の推論過程を追跡可能にするための TS-tailored CoT を適用してプロセス検証可能な推論軌跡を作成する。推論にはルールベースの抽出器と DeepSeek-R1 を用い、サンプル・タスク・軌跡・検証可能ラベルを TSRBench に統合する。
  • TS-tailored CoT は、タスク意図から最終サマリまでの6段階の順序付きステップを含み、追跡可能な推論を保証する。
  • VeriTime は二段階の RL ファインチューニングを用いる。Stage 1 は TS-tailored CoT 軌跡上での SFT。Stage 2 はプロセスレベルの信号と最終正確度を含む多目的報酬を用いた RL。
  • 選択的ローアウトデータスケジューリング戦略は TSRBench のタスクを難易度とモデル性能で分割し、SFT と RL の間でデータを割り当てることで効率と有効性を高める。
  • 報酬設計は、構造報酬(形式と長さ)、ハード報酬(最終解答の正確さ)、および4つのプロセス報酬(タスク理解、パターン識別、回答整合、回答検証)からなる。
  • 評価は TSRBench および他の TS ベンチマークで VeriTime をベースラインと比較し、TS-tailored CoT の有効性とデータスケジューリングを分析する。
Figure 1 : The overall framework of the time series reasoning data generation pipeline TSRgen .
Figure 1 : The overall framework of the time series reasoning data generation pipeline TSRgen .

実験結果

リサーチクエスチョン

  • RQ1RQ1: VeriTime は多様な TS 推論タスクで LLM の性能をどの程度改善できるか。
  • RQ2RQ2: TS-tailored CoT は LLM の TS 推論能力を高めるか。
  • RQ3RQ3: 多目的報酬設計がステップごとの推論品質に与える影響は。
  • RQ4RQ4: データスケジューリングは性能と効率のトレードオフにどう影響するか。

主な発見

  • VeriTime はタスク全体で顕著な改善を実現し、平均で 35% 以上のゲインを超え、3B–4B モデルが大手の商用LLMに匹敵する性能を発揮できる。
  • TSRgen は TSRBench を作成し、検証可能な複数段階 CoT とプロセスレベルのアノテーションを持つ初の TS 推論データセットを提供する。
  • 二段階 RL(細粒度報酬付き)は最終精度と中間推論の妥当性の双方を改善し、報酬を除くと性能が著しく低下する。
  • データスケジューリングは効率と性能を向上させ、モデルガイド付き割り当ては状況ベースのタスクで全RLを上回り、知識ベースのタスクではRLの恩恵を示す。
  • TS-tailored CoT はトークン使用量を平均で約71%削減しつつ、精度を維持または向上させる。
  • VeriTime は TimeSeriesExam および DROP ベンチマークでも大幅な向上を示し、合成推論・数値推論タスクへの一般化を示唆する。
Figure 2 : Overview of the proposed VeriTime. It consists of three stages: (1) Stage 1 leverages TSRBench to warmup a base LLM $\theta_{0}$ into $\theta_{1}$ , which is subsequently used to perform difficulty stratification over all TSRBench tasks. (2) Stage 2 fine-tunes $\theta_{1}$ on samples with
Figure 2 : Overview of the proposed VeriTime. It consists of three stages: (1) Stage 1 leverages TSRBench to warmup a base LLM $\theta_{0}$ into $\theta_{1}$ , which is subsequently used to perform difficulty stratification over all TSRBench tasks. (2) Stage 2 fine-tunes $\theta_{1}$ on samples with

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。