[논문 리뷰] Training Verifiers to Solve Math Word Problems
이 논문은 8.5만 개의 초등학생 수학 word problem으로 구성된 다양한 데이터셋인 GSM8K를 소개하고, 모델이 생성한 해법을 평가하기 위해 검증자(verifier)를 훈련시키는 방법을 제안한다. 테스트 시점에 다수의 후보 해법을 샘플링하고, 검증자를 통해 가장 높은 순위를 받은 해법을 선택함으로써 성능이 크게 향상되며, 이는 모델 크기를 30배 증가시킨 것과 동일한 효과를 가진다. 이는 검증이 피취한 훈련보다 데이터에 더 효과적으로 스케일링됨을 보여준다.
State-of-the-art language models can match human performance on many tasks, but they still struggle to robustly perform multi-step mathematical reasoning. To diagnose the failures of current models and support research, we introduce GSM8K, a dataset of 8.5K high quality linguistically diverse grade school math word problems. We find that even the largest transformer models fail to achieve high test performance, despite the conceptual simplicity of this problem distribution. To increase performance, we propose training verifiers to judge the correctness of model completions. At test time, we generate many candidate solutions and select the one ranked highest by the verifier. We demonstrate that verification significantly improves performance on GSM8K, and we provide strong empirical evidence that verification scales more effectively with increased data than a finetuning baseline.
연구 동기 및 목표
- 대규모 언어 모델이 다단계 수학적 추론 작업에서 실패하는 원인을 진단하기 위해.
- 모델 크기 증가에만 의존하지 않고도 추론 성능을 향상시킬 수 있는 확장 가능한 방법을 개발하기 위해.
- 언어적으로 다양하고 고품질의 데이터셋을 만들기 위해 수학적 추론을 평가하기 위한 언어 모델에 적합한 데이터셋을 구축하기 위해.
- 검증 기반 추론이 표준 피취한 훈련을 능가하고 데이터에 더 효과적으로 스케일링됨을 보여주기 위해.
- 드롭아웃과 같은 정규화 기법이 검증 및 피취한 훈련 성능에 미치는 영향을 조사하기 위해.
제안 방법
- 저자는 자연어 해법이 수록된 8.5만 개의 초등학생 수학 word problem으로 구성된 정제된 데이터셋인 GSM8K를 소개한다. 이는 7.5만 개의 훈련 예제와 1,000개의 테스트 예제로 나뉜다.
- 모델이 생성한 해법의 정확성을 평가하기 위해 검증자를 훈련시키며, 이는 두 단계 과정으로 이루어진다: 다수의 후보 해법 생성 → 검증자를 통한 순위 매기기.
- 테스트 시점에 가장 높은 순위를 받은 해법을 선택하고, 상위 순위 해법들 간의 다수결 투표를 허용함으로써 성능을 추가로 향상시킨다.
- 검증자는 해법 수준 또는 토큰 수준의 모델로 훈련되며, 후자가 과적합에 더 강건하다.
- 드롭아웃은 정규화 기법으로 사용되며, 특히 해법 수준의 검증자에게서 효과적이며, 분포 이탈을 줄이기 위해 사전 훈련 및 피취한 훈련 모두에서 사용된다.
- 이 방법은 테스트 시점 컴퓨팅을 활용하여 다수의 완성문을 생성하고 검증자를 통해 후보 해법을 순위 매김함으로써 후보 해법 간의 검색을 가능하게 한다.
실험 결과
연구 질문
- RQ1검증 기반 추론이 표준 피취한 훈련에 비해 수학 word problem 해결 성능을 크게 향상시킬 수 있는가?
- RQ2피취한 훈련과 비교해 검증 성능이 훈련 데이터 증가에 따라 어떻게 스케일링되는가?
- RQ3드롭아웃을 통한 정규화가 피취한 훈련 모델과 검증자 모두의 일반화 능력을 향상시키는가?
- RQ4해법 수준과 토큰 수준의 검증자 중 어떤 선택이 강건성과 성능에 영향을 미치는가?
- RQ5테스트 시점 추론에서 생성된 완성문 수와 상위 순위 해법 투표에 사용되는 수 사이의 최적의 트레이드오프는 무엇인가?
주요 결과
- 6B 모델을 사용한 검증이 175B 피취한 훈련 모델보다 GSM8K에서 더 높은 성능을 보이며, 이는 모델 크기를 30배 증가시킨 것과 동일한 성능 향상 효과를 가진다.
- 검증은 피취한 훈련보다 데이터 증가에 더 효과적으로 스케일링되며, 훈련 데이터가 증가할수록 성능 향상이 계속해서 향상된다.
- 드롭아웃은 피취한 훈련 및 검증 성능을 모두 크게 향상시키며, 특히 해법 수준의 검증자에서 가장 두드러진 성과를 보인다.
- 상위 순위 해법들 간의 다수결 투표를 사용하면 성능이 추가로 향상되며, 최적의 투표 임계값은 생성된 완성문의 수에 따라 달라진다.
- 문제당 약 400개의 완성문을 생성할 때 성능이 최고에 도달하며, 이를 초과하면 악성 해법이 결과를 떨어뜨리는 경향이 있다.
- 토큰 수준의 검증자는 해법 수준의 검증자보다 본질적으로 과적합에 더 강건하며, 이 경우 드롭아웃은 오직 약간의 이점을 제공할 뿐이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.