[논문 리뷰] Solving math word problems with process- and outcome-based feedback
이 논문은 수학 단어 문제 풀이에서 추론 흔적을 포함한 프로세스 기반 감독과 결과 기반 감독을 비교하고, 보상모델 기반 RL 및 프로세스 감독이 GSM8K 추적과 최종 답변 정확도에서 강한 개선을 보임을 보여준다.
Recent work has shown that asking language models to generate reasoning steps improves performance on many reasoning tasks. When moving beyond prompting, this raises the question of how we should supervise such models: outcome-based approaches which supervise the final result, or process-based approaches which supervise the reasoning process itself? Differences between these approaches might naturally be expected not just in final-answer errors but also in reasoning errors, which can be difficult to detect and are problematic in many real-world domains such as education. We run the first comprehensive comparison between process- and outcome-based approaches trained on a natural language task, GSM8K. We find that pure outcome-based supervision produces similar final-answer error rates with less label supervision. However, for correct reasoning steps we find it necessary to use process-based supervision or supervision from learned reward models that emulate process-based feedback. In total, we improve the previous best results from 16.8% $ o$ 12.7% final-answer error and 14.0% $ o$ 3.4% reasoning error among final-answer-correct solutions.
연구 동기 및 목표
- GSM8K에서 추론 흔적을 생성하는 언어 모델에 대해 프로세스 기반 감독과 결과 기반 감독을 비교한다.
- 감독 유형이 최종 답변 및 추론 흔적의 품질에 미치는 영향을 평가한다.
- 보상 모델과 RL이 추적 정확도 대비 최종 답변 정확도를 얼마나 개선하는지 평가한다.
- 단계별 정답 여부에 대한 데이터 주석 전략과 교육 및 안전에의 함의를 탐구한다.
제안 방법
- GSM8K 문제에 대해 대형 LM을 사용하여 단계별 추론 흔적을 생성한다.
- 전체 추론 흔적(프로세스 기반) 대비 최종 답변(결과 기반)으로의 감독 미세조정으로 모델을 학습한다.
- 단계에 점수를 매기는 보상 모델을 학습하여 ORM은 최종 답변 기반 라벨, PRM은 프로세스 기반 라벨을 평가하고 전문가 반복과 함께 RL을 사용한다.
- RM 기반 재랭킹이나 최종 답변 정합성, ORM, 또는 PRM 신호에 대해 RL을 사용한다.
- 다수의 흔적을 샘플링하여 다수결 또는 RM 가중 디코딩으로 해독한다.
- 추적 오차율과 최종 답변 오차율, 선택적 예측(abstention) 및 OOD 일반화까지 평가한다.
실험 결과
연구 질문
- RQ1최종 답변에 대한 감독만으로도 최종 답변 정확도가 추론 흔적에 대한 감독과 비슷하게 도달하는가?
- RQ2보상모델 기반 방법이 프로세스 기반 피드백을 모방하여 결과 기반 신호로 학습할 때 추적 오차를 줄일 수 있는가?
- RQ3GSM8K에서 어떤 학습 규칙(SFT, 소수 샷, RL)이 추적 및 최종 답변 오차를 가장 잘 줄이는가?
- RQ4선택적 예측(abstention)과 OOD 일반화가 서로 다른 감독 체계하에서 성능에 어떤 영향을 주는가?
- RQ5ORM 및 PRM 보상이 프로세스 기반 판단과 일치하여 다양한 설정에서 추적 품질에 도움을 주는가?
주요 결과
- 결과 기반 감독은 프로세스 기반 감독과 유사한 최종 답변 정확도를 보여주되 라벨 비용은 더 적다.
- 프로세스 기반 피드백을 모방하도록 학습된 보상 모델은 RL 또는 재랭킹에 사용될 때 추적 정확도와 최종 답변 정확도를 개선한다.
- 감독 학습과 보상모델 기반 RL을 결합한 최적의 결과가 추적 오차를 14.0%에서 3.4%로, 최종 답변 오차를 16.8%에서 12.7%로 줄인다.
- 질문 중 30%에 대해 abstention을 허용하면 최종 답변 오차를 2.7%까지 낮출 수 있다.
- ORM 예측은 프로세스 기반 라벨과 더 일치하는 경향이 있어 보상 모델이 프로세스 정답을 포착할 수 있음을 시사한다.
- 낮은 추적 오차를 달성하려면 프로세스 기반 피드백이나 이를 모방하는 RM이 필요하며(예: ORM-RL 또는 PRM-RL이 Final-Answer RL보다 우수).
- 선택적 예측은 추적 오차가 낮은 모델에서 특히 최종 답변 오차를 크게 감소시킨다(예: PRM/ORM을 사용하는 SFT 모델).
- MATH 예비대수학(OOD)으로의 일반화는 완벽하지 않지만 이전 GPT-3 결과보다 개선되며, 결과는 기초 LM 및 데이터에 민감하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.