QUICK REVIEW

[논문 리뷰] Solving Quantitative Reasoning Problems with Language Models

Aitor Lewkowycz, Anders Andreassen|arXiv (Cornell University)|2022. 06. 29.

Topic Modeling인용 수 281

한 줄 요약

Minerva는 일반 및 기술 데이터를 바탕으로 외부 도구 없이 정량적 추론을 수행하도록 학습된 대형 언어 모델로, 여러 벤치마크에서 최첨단 결과를 달성하고 200개가 넘는 학부 수준 문제를 해결합니다.

ABSTRACT

Language models have achieved remarkable performance on a wide range of tasks that require natural language understanding. Nevertheless, state-of-the-art models have generally struggled with tasks that require quantitative reasoning, such as solving mathematics, science, and engineering problems at the college level. To help close this gap, we introduce Minerva, a large language model pretrained on general natural language data and further trained on technical content. The model achieves state-of-the-art performance on technical benchmarks without the use of external tools. We also evaluate our model on over two hundred undergraduate-level problems in physics, biology, chemistry, economics, and other sciences that require quantitative reasoning, and find that the model can correctly answer nearly a third of them.

연구 동기 및 목표

고품질 수학 콘텐츠로 학습시켜 언어 모델의 정량적 추론 능력의 격차를 해소한다.
자연어와 형식적 수학 기호를 결합한 크고 수학 중심의 학습 말뭉치를 생성한다.
외부 계산기나 도구 없이도 강한 few-shot 성능과 독립적 추론을 입증한다.
다양한 데이터셋(MATH, GSM8k, MMLU-STEM)과 학부 OCW 문제에 대해 평가하여 강건성과 일반화를 평가한다.

제안 방법

PaLM 사전 학습 모델(8B, 62B, 540B)에서 시작한다.
수학 웹 페이지와 arXiv 콘텐츠로 구성된 수학 데이터셋에 대해 미세조정하여 수학 표기를 보존한다.
LaTeX와 자연어 설명을 포함한 독립적 해답을 생성하도록 자기회귀 방식으로 학습한다.
주로 few-shot 프롬프팅과 다수 투표(maj1@k)를 이용해 여러 샘플에서 외부 도구 없이 평가한다.
정답의 수치/기호 해를 정확성 확인을 위해 SymPy로 구문 분석하고 검증한다.
순수 수학을 넘어 학부 수준의 과학 문제로 평가를 확장하기 위해 MIT OCW 문제 200개 이상을 선별한다.

실험 결과

연구 질문

RQ1외부 도구 없이 대형 언어 모델이 정량적 추론 작업에서 높은 정확도를 달성할 수 있는가?
RQ2모델 크기와 데이터 품질이 수학, 과학, 공학 문제의 성능에 어떤 영향을 미치는가?
RQ3다수 샘플에 대한 다수 투표가 단일 샘플의 탐욕적 디코딩보다 정량적 추론 정확도를 향상시키는가?
RQ4정량적 문제를 해결할 때 모델이 암기에 얼마나 의존하는지 아니면 진정한 추론에 의존하는지 어느 정도인가?

주요 결과

Minerva는 외부 도구 없이 few-shot 설정에서 MATH, GSM8k, 그리고 MMLU의 STEM 부분집합에서 최첨단 결과를 달성했다.
GSM8k 성능은 maj1@k 샘플링으로 540B 모델에서 78.5%에 도달한다.
MATH 결과는 더 큰 모델과 다수 투표에서 강한 향상을 보여주며, 예를 들어 Maj1@k가 비앙샘블 출력보다 크게 향상된다.
OCWCourses(학부 문제)는 더 큰 Minerva 모델과 다수 투표로 측정 가능한 향상을 보인다.
Polish national exam 결과는 62B와 540B가 각각 57%와 65%를 달성하여 표준 벤치마크 밖으로의 일반화 가능성을 시사한다.
분석에 따르면 모델의 성공은 암기만으로는 설명되지 않으며 문제 문구 및 문제 수정에 대한 강건성도 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.