[논문 리뷰] Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning
VeriTime은 데이터 합성, 프로세스 검증 가능 시간 시계열 추론 파이프라인(TSRgen)과 데이터 일정이 있는 2단계 RL 파인튜닝을 통해 TS 추론에 맞춰 LLM을 조정하고, 더 작은 모델이 경쟁력 있는 TS 추론 성능에 도달할 수 있도록 합니다.
Time series is a pervasive data type across various application domains, rendering the reasonable solving of diverse time series tasks a long-standing goal. Recent advances in large language models (LLMs), especially their reasoning abilities unlocked through reinforcement learning (RL), have opened new opportunities for tackling tasks with long Chain-of-Thought (CoT) reasoning. However, leveraging LLM reasoning for time series remains in its infancy, hindered by the absence of carefully curated time series CoT data for training, limited data efficiency caused by underexplored data scheduling, and the lack of RL algorithms tailored for exploiting such time series CoT data. In this paper, we introduce VeriTime, a framework that tailors LLMs for time series reasoning through data synthesis, data scheduling, and RL training. First, we propose a data synthesis pipeline that constructs a TS-text multimodal dataset with process-verifiable annotations. Second, we design a data scheduling mechanism that arranges training samples according to a principled hierarchy of difficulty and task taxonomy. Third, we develop a two-stage reinforcement finetuning featuring fine-grained, multi-objective rewards that leverage verifiable process-level CoT data. Extensive experiments show that VeriTime substantially boosts LLM performance across diverse time series reasoning tasks. Notably, it enables compact 3B, 4B models to achieve reasoning capabilities on par with or exceeding those of larger proprietary LLMs.
연구 동기 및 목표
- LLM을 활용한 향상된 시계열 추론의 필요성을 촉구하고 데이터 품질, 데이터 효율성, 작업별 RL의 격차를 확인한다.
- 프로포즈 TSRgen으로 프로세스 검증 가능한 주석(TSRBench)을 갖춘 TS-텍스트 멀티모달 추론 데이터셋을 생성한다.
- VeriTime 도입: 중간 추론 단계와 최종 정확도를 최적화하기 위해 데이터 스케줄링을 포함한 2단계 강화 학습 파인튜닝 프레임워크.
- 다양한 작업에서 VeriTime이 TS 추론을 개선하고 더 작은 LLM이 더 큰 베이스라인을 능가하도록 함을 보여준다.
제안 방법
- TSRgen 파이프라인은 합성 데이터와 실제 시계열을 결합하여 Time Series Reasoning 데이터를 생성하고, TS에 맞춘 Chain-of-Thought를 적용해process-verifiable 추론 경로를 만든다; 규칙 기반 추출기와 DeepSeek-R1을 이용한 추론; 샘플, 작업, 경로 및 검증 가능한 라벨을 TSRBench으로 통합한다.
- TS-맞춤 CoT는 추론의 추적 가능성을 보장하기 위해 작업 의도에서 최종 요약까지 여섯 단계의 순서를 포함한다.
- VeriTime은 두 단계 RL 파인튜닝을 사용한다: 1단계는 TS-맞춤 CoT 경로에 대한 SFT; 2단계는 프로세스 신호와 최종 정확도를 포함한 다목적 보상을 사용하는 RL.
- 선택적 롤아웃 데이터 스케줄링 전략은 난이도와 모델 성능에 따라 TSRBench 작업을 분할하여 SFT와 RL 간에 데이터를 효율성과 효과성을 위해 할당한다.
- 보상 설계는 구조 보상(형식 및 길이), 하드 보상(최종 답의 정확성), 그리고 네 가지 과정 보상(작업 이해도, 패턴 식별, 답변 정렬, 답변 검증)을 포함한다.
- 평가는 TSRBench 및 기타 TS 벤치마크에서 VeriTime과 베이스라인을 비교하고 TS-맞춤 CoT 효과 및 데이터 스케줄링을 분석한다.

실험 결과
연구 질문
- RQ1RQ1: VeriTime이 다양한 TS 추론 작업에서 LLM 성능을 얼마나 향상시키는가?
- RQ2RQ2: TS-맞춤 Chain-of-Thought가 LLM의 TS 추론 능력을 향상시키는가?
- RQ3RQ3: 다목적 보상 설계가 단계별 추론 품질에 미치는 영향은?
- RQ4RQ4: 데이터 스케줄링이 성능-효율성 트레이드오프에 어떤 영향을 미치는가?
주요 결과
- VeriTime은 작업 전반에서 상당한 향상을 제공하며, 예를 들어 평균 약 35% 이상 증가를 달성하고 3B–4B 모델이 더 큰 독점 LLM과 경쟁하도록 한다.
- TSRgen은 검증 가능한 다단계 CoT와 프로세스 수준 주석이 포함된 최초의 TS 추론 데이터셋인 TSRBench를 만든다.
- 세밀한 보상이 포함된 2단계 RL은 최종 정확도와 중간 추론의 타당성을 모두 향상시키며, 보상을 제거하면 성능이 눈에 띄게 감소한다.
- 데이터 스케줄링은 효율성과 성능을 향상시키며, 모델 가이드 할당이 시나리오 기반 작업에서 전체 RL보다 우수하고 지식 기반 작업에는 RL의 이점이 있다.
- TS-맞춤 CoT는 평균 약 71%의 토큰 사용을 감소시키면서도 정확도는 유지하거나 향상시킨다.
- VeriTime은 TimeSeriesExam 및 DROP 벤치마크에서도 큰 향상을 보여 합성 및 수치 추론 과제로의 일반화를 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.