[논문 리뷰] Measuring Mathematical Problem Solving With the MATH Dataset
논문은 단계별 해답이 있는 기계 수학 문제 해결을 측정하기 위한 12,500문항 벤치마크 MATH와 수학 추론 향상을 위한 대형 프리트레이닝 코퍼스 AMPS를 소개합니다. 현재 모델이 어려움을 겪고 있으며 단순한 규모 확장만으로는 충분하지 않음을 보여줍니다.
Many intellectual endeavors require mathematical problem solving, but this skill remains beyond the capabilities of computers. To measure this ability in machine learning models, we introduce MATH, a new dataset of 12,500 challenging competition mathematics problems. Each problem in MATH has a full step-by-step solution which can be used to teach models to generate answer derivations and explanations. To facilitate future research and increase accuracy on MATH, we also contribute a large auxiliary pretraining dataset which helps teach models the fundamentals of mathematics. Even though we are able to increase accuracy on MATH, our results show that accuracy remains relatively low, even with enormous Transformer models. Moreover, we find that simply increasing budgets and model parameter counts will be impractical for achieving strong mathematical reasoning if scaling trends continue. While scaling Transformers is automatically solving most other text-based tasks, scaling is not currently solving MATH. To have more traction on mathematical problem solving we will likely need new algorithmic advancements from the broader research community.
연구 동기 및 목표
- 머신러닝 모델의 수학 문제 해결 능력을 다양한 대회 스타일의 수학 문제 세트로 평가한다.
- 학습과 평가를 돕기 위한 전체 단계별 해답이 포함된 대규모의 해석 가능한 데이터셋을 제공한다.
- AMPS를 소개하여 광범위한 수학 주제 전반의 기초를 가르치는 프리트레이닝 코퍼스를 제시한다.
- 모델 크기, 프리트레이닝, 단계별 해답 노출이 MATH에서의 성능에 미치는 영향을 평가한다.
제안 방법
- AMC, AIME 및 관련 대회에서 7개 주제와 난이도 1–5로 구성된 MATH를 만들고, 최종 상자에 정답이 정확히 일치하는 채점 방식을 요구한다.
- 학습 및 해석 가능성을 지원하기 위해 각 문제에 대해 전체 단계별 해답을 제공한다.
- LaTeX 형식의 해답을 포함한 Khan Academy 및 Mathematica 생성 문제로부터 AMPS 프리트레이닝 코퍼스를 개발한다.
- AMPS에서 자가회귀 모델을 프리트레이닝한 뒤, 최종 답변/전체 해답 목표를 혼합한 형태로 MATH에 미세조정한다.
- AMPS 프리트레이닝 여부, 단계별 스크래치 공간의 여부, 부분 해답 힌트를 포함한 설정 등 다양한 설정에서 MATH에서 모델(GPT-2/3)을 평가한다.
- 훈련 및 추론 중 단계별 해답의 포함 여부가 성능, 신뢰도/오류 탐지에 미치는 영향을 분석한다.
실험 결과
연구 질문
- RQ1현재의 언어 모델이 고등학교 경쟁 스타일의 수학 문제를 얼마나 잘 푸는가?
- RQ2AMPS 프리트레이닝이 규모 확장만으로의 성능 향상을 의미 있게 개선하는가?
- RQ3단계별 해답이 모델의 유용한 스크래치 공간이 될 수 있는가, 어떤 조건에서?
- RQ4부분 또는 전체 단계별 해답을 제공하는 것이 모델 정확도에 어떤 영향을 미치는가?
- RQ5트랜스포머의 확장만으로 MATH에서 높은 정확도를 달성할 수 있는가, 아니면 알고리즘적 혁신이 필요한가?
주요 결과
- MATH에서의 모델 정확도는 대형 트랜스포머에서도 여전히 낮다(예: GPT-3 175B의 평균 5.2%).
- AMPS 프리트레이닝은 0.1B 모델이 미세조정된 13B 모델의 성능에 필적하게 만들어 데이터 효율성을 보여준다.
- 이 설정에서 AMPS 프리트레이닝은 Math StackExchange 데이터 프리트레이닝보다 우수하다.
- 추론 중 단계별 해답을 생성하는 것은 정확도를 낮출 수 있어 스크래치 공간의 동작이 진행을 방해할 수 있다.
- 단계별 해답이나 부분 정답 해답으로 훈련하는 것이 질문과 최종 답안만 사용하는 것보다 성능을 향상시킬 수 있다.
- 막대한 규모 확장에도 40% 정확도를 달성하려면 비현실적인 파라미터 수가 필요하므로 새로운 알고리즘의 필요성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.