[논문 리뷰] Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement
논문은 Qwen2.5-Math를 소개합니다. 이는 자기개선 루프(사전학습, 보상모델로의 사후학습, 추론 가이던스)로 학습된 수학 특화 LLM 시리즈로, 영어와 중국어에서 CoT 및 도구 통합 추론을 포함한 최첨단 수학 추론을 달성합니다.
In this report, we present a series of math-specific large language models: Qwen2.5-Math and Qwen2.5-Math-Instruct-1.5B/7B/72B. The core innovation of the Qwen2.5 series lies in integrating the philosophy of self-improvement throughout the entire pipeline, from pre-training and post-training to inference: (1) During the pre-training phase, Qwen2-Math-Instruct is utilized to generate large-scale, high-quality mathematical data. (2) In the post-training phase, we develop a reward model (RM) by conducting massive sampling from Qwen2-Math-Instruct. This RM is then applied to the iterative evolution of data in supervised fine-tuning (SFT). With a stronger SFT model, it's possible to iteratively train and update the RM, which in turn guides the next round of SFT data iteration. On the final SFT model, we employ the ultimate RM for reinforcement learning, resulting in the Qwen2.5-Math-Instruct. (3) Furthermore, during the inference stage, the RM is used to guide sampling, optimizing the model's performance. Qwen2.5-Math-Instruct supports both Chinese and English, and possess advanced mathematical reasoning capabilities, including Chain-of-Thought (CoT) and Tool-Integrated Reasoning (TIR). We evaluate our models on 10 mathematics datasets in both English and Chinese, such as GSM8K, MATH, GaoKao, AMC23, and AIME24, covering a range of difficulties from grade school level to math competition problems.
연구 동기 및 목표
- 사전학습, 사후학습, 추론 전 과정에서의 자기개선 기법이 LLM의 수학적 추론을 크게 향상시킬 수 있음을 입증한다.
- 수학 특화 기본 모델 및 지시형 모델(Qwen2.5-Math-1.5B/7B/72B)과 수학 특화 보상모델(RM)을 구축한다.
- CoT 및 도구통합추론(TIR) 능력과 영어/중국어 이중언어 성능을 다양한 수학 벤치마크에서 시연한다.
- GSM8K, MATH, GaoKao, AMC, AIME 및 관련 데이터셋에서 오픈소스 및 비공개 baselines와 비교해 성능 향상을 확인한다.
제안 방법
- 데이터 회상, 필터링, 중복제거 및 합성 데이터를 통해 Qwen Math Corpus v1(~700B 토큰)을 생성한다.
- Corpus v1에서 Qwen2-Math 기본 모델을 학습한다(1.5B/7B/72B).
- 샘플링된 데이터에서 Qwen2-Math-RM을 순차적으로 학습시켜 SFT를 유도하고, RM을 활용해 추가 데이터와 RL(GRPO)로 최종 모델을 조정한다.
- Qwen Math Corpus v2(>1T 토큰)로 확장하고 Qwen2.5-Math 계열의 베이스를 Qwen2.5 시리즈로 초기화한다.
- 사후학습에서 CoT 및 TIR 데이터셋을 생성하고, 거절 샘플링으로 SFT를, GRPO로 RL을 수행하며 보상형 설계를 위한 규칙 기반 검증기를 도입한다.
- 추론 중 RM 가이드 샘플링 및 GRPO 기반 정책 최적화를 적용하고, TIR을 위한 Python Interpreter 기반 계산을 가능하게 한다.
실험 결과
연구 질문
- RQ1데이터 합성, 보상모델링 및 강화학습을 포함한 자기개선 루프가 LLM의 수학적 추론능력을 어떻게 향상시키는가?
- RQ2이중언어 데이터(영어/중국어), CoT, 도구통합추론이 수학 벤치마크에 어떤 영향을 주는가?
- RQ3Qwen2.5-Math 모델이 여러 데이터셋과 작업에서 선도적인 오픈소스 및 클로즈드 소스 수학 모델과 어떻게 비교되는가?
- RQ4사전학습, 사후학습, 추론 중 RM 및 TIR으로 강화될 때 서로 다른 모델 크기(1.5B/7B/72B)의 효과는 무엇인가?
- RQ5수학 문제 해결에서 Python 기반 도구 사용이 수치 정확도와 문제 해결 능력을 크게 향상시키는가?
주요 결과
- Qwen2.5-Math-72B-Instruct는 오픈소스 수학 모델 중에서 MATH, CMATH, Gaokao Math Cloze, Gaokao Math QA에서 최첨단 성능을 달성합니다.
- Qwen2.5-Math-72B-Instruct는 Qwen2-Math-72B-Instruct보다 의미 있는 차이로 우수한 성능을 보이며(평균 이득 수치가 보고됨), 더 작은 1.5B/7B 변형도 특히 Python Interpreter 지원 시 강력한 성능을 보입니다.
- CoT 모드에서 Qwen2.5-Math-1.5B-Instruct가 다수의 오픈소스 모델을 능가하고, 7B 변형은 여러 지표에서 72B instruct 모델에 거의 근접합니다.
- TIR 모드에서 72B 모델은 MATH에서 거의 90에 접근하고 1.5B 모델은 약 80에 도달하여 크기에 관계없이 도구 기반 추론에 대한 강한 수요를 보여줍니다.
- Qwen2.5-Math 모델은 벤치마크 전반에서 중국어 수학 문제 해결 능력이 현저히 개선됩니다.
- 사전학습 데이터 합성, RM 주도 사후학습, RM 유도 추론의 엔드투엔드 자기개선 파이프라인이 전임자들보다 실질적인 성능 향상을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.