[논문 리뷰] AlphaMath Almost Zero: Process Supervision without Process
AlphaMath는 사전 학습된 LLM과 경량 가치 모델이 통합된 몬테카를로 트리 탐색(MCTS)을 사용하여 인간 또는 GPT-4 주석 프로세스 데이터 없이 고품질의 수학적 추론을 자율적으로 생성하고, 단계별 평가 및 단계별 빔 탐색을 통한 효율적인 추론을 가능하게 한다.
Although recent advancements in large language models (LLMs) have significantly improved their performance on various tasks, they still face challenges with complex and symbolic multi-step reasoning, particularly in mathematical reasoning. To bolster the mathematical reasoning capabilities of LLMs, most existing efforts concentrate on seeking assistance from either domain experts or GPT-4 for high-quality process-supervised data, which is not only expensive but also labor-intensive. In our study, we propose an innovative framework, AlphaMath, that bypasses the need for process annotations (from humans or GPTs) by leveraging Monte Carlo Tree Search (MCTS). This framework focuses on unleashing the potential of a well-pretrained LLM to autonomously enhance its mathematical reasoning. Specifically, we integrate a value model with the LLM, automatically generating both process supervision and step-level evaluation signals in MCTS. Furthermore, we propose an efficient inference strategy, step-level beam search, where the value model is crafted to assist the policy model (i.e., LLM) in navigating more effective reasoning paths, rather than solely relying on prior probabilities. The experimental results on both in-domain and out-of-domain datasets demonstrate that even without GPT-4 or human-annotated process supervision, our AlphaMath framework achieves comparable or superior results to previous state-of-the-art methods.
연구 동기 및 목표
- 모델의 고유한 지식을 활용하여 LLM의 수학적 추론에 대한 주석 비용을 줄이는 것을 동기 부여한다.
- 외부 해답 없이 MCTS를 사용해 중간 추론 단계를 생성하고 평가하는 자기 진화 프레임워크를 개발한다.
- 가치 모델로 LLM을 안내하면서 추론을 더 효율적으로 만들기 위한 단계별 빔 검색을 도입한다.
- GPT-4 또는 인간 주석 없이도 AlphaMath가 도메인 내외의 수학 데이터셋에서 최첨단 수준의 성능에 도달할 수 있음을 입증한다.
제안 방법
- 사전 학습된 LLM을 몬테카를로 트리 탐색(MCTS) 프레임워크와 통합하여 추론 단계를 생성하고 평가한다.
- 부분 해의 품질을 추정하고 검색 중 LLM을 안내하는 단계 수준 가치 모델 Vϕ를 도입한다.
- 비종료 단계에는 0, 종료 단계의 정답/오답에 대해 ±1의 보상 신호를 할당하고, 회귀를 통해 Vϕ를 eV(s)로 학습시킨다.
- λ에 의해 제어되는 가치 모델과 경험적 롤아웃 보상을 결합한 ˆV(st)로 MCTS 중 하이브리드 평가를 사용한다.
- 추론 중 전체 MCTS를 대체하기 위한 단계 수준 빔 탐색(SBS)을 제안하여 후보 단계를 선택할 때 가치 모델을 활용하며 대기 시간을 감소시킨다.
- MCTS로 생성된 정답/오답 해법 경로에서 정책 πθ와 가치 Vϕ를 갱신하는 반복 학습 루프를 사용하고, 다음 토큰 확률과 가치 오차를 결합한 다중 과제 손실을 사용한다.
실험 결과
연구 질문
- RQ1MCTS로 안내될 때도 잘 학습된 LLM이 인간 또는 GPT-4 주석이 달린 해답 없이 고품질의 수학적 추론을 생성할 수 있는가?
- RQ2LLM에 통합된 경량 가치 모델이 단계 수준의 추론과 전반적인 문제 해결 성능을 향상시키는가?
- RQ3단계 수준 빔 탐색이 생산 배치에 대해 전체 MCTS의 효과적이고 효율적인 대안인가?
- RQ4외부 주석 프로세스 없이 도메인 내외의 수학 데이터셋에서 AlphaMath의 성능은 어떠한가?
- RQ5AlphaMath가 수학 추론 작업에서 도메인 특화 모델과 일반 목적 LLM, SFT 모델을 포함해 향상시킬 수 있는가?
주요 결과
- AlphaMath는 GPT-4 또는 인간 주석 해답 없이 도메인 내 데이터셋(GSM8K, MATH) 및 도메인 외 데이터셋(GaoKao2023, OCWCourses, GK2023)에서 최첨단 방법과 경쟁하거나 우수한 성과를 달성한다.
- 단계 수준 가치 모델과 단계 수준 빔 탐색을 도입하면 탐욕적 디코딩 및 일반 MCTS에 비해 추론 성능이 크게 향상되며, 빔 크기가 커질수록 성능이 증가한다.
- MCTS가 안내하는 자기 진화를 통한 반복 학습은 라운드가 진행될수록 해법 품질이 향상되어 자기 생성 데이터의 품질이 더 많 은 라운드에서 개선됨을 시사한다.
- 이 접근법은 도메인 특화 모델(예: DeepSeekMath-Base-7B)과 일반 목적/SFT 모델(예: Llama3, MARIO) 모두에 이익을 주어 광범위한 적용 가능성을 보여준다.
- 단계 수준 빔 탐색은 성능과 계산 사이의 우호적 균형을 제공하여 낮은 대기 시간으로 거의 MCTS 수준의 추론을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.