[논문 리뷰] Solving Math Word Problems by Combining Language Models With Symbolic Solvers
본 논문은 점진적으로 문제를 변수와 방정식으로 형식화하는 LLM과 외부 기호 해석기(symbolic solver)를 결합하여 단계별 해법을 제시하고, GSM8k에서 PAL과 비슷한 성능을 달성하며 Algebra 데이터셋에서 약 20% 절대적 개선을 보인다.
Automatically generating high-quality step-by-step solutions to math word problems has many applications in education. Recently, combining large language models (LLMs) with external tools to perform complex reasoning and calculation has emerged as a promising direction for solving math word problems, but prior approaches such as Program-Aided Language model (PAL) are biased towards simple procedural problems and less effective for problems that require declarative reasoning. We propose an approach that combines an LLM that can incrementally formalize word problems as a set of variables and equations with an external symbolic solver that can solve the equations. Our approach achieves comparable accuracy to the original PAL on the GSM8K benchmark of math word problems and outperforms PAL by an absolute 20% on ALGEBRA, a new dataset of more challenging word problems extracted from Algebra textbooks. Our work highlights the benefits of using declarative and incremental representations when interfacing with an external tool for solving complex math word problems. Our data and prompts are publicly available at https://github.com/joyheyueya/declarative-math-word-problem.
연구 동기 및 목표
- 수학 단어 문제에 대해 고품질의 단계별 해답 생성을 자동으로 촉진한다.
- PAL과 같은 선언적 추론을 위한 순수 절차적 LLM 접근 방식의 한계를 다룬다.
- LLM에 의한 선언적이고 점진적인 형식화와 외부 기호 해석기(SymPy 등)를 이용한 해법 도출의 두 단계 접근법을 제안한다.
- 더 어려운 선언적 문제를 테스트하기 위해 GSM8k와 새로운 Algebra 기반 데이터셋에서 평가한다.
- 재현성을 위해 데이터와 프롬프트를 공개적으로 공유한다.
제안 방법
- Declarative 프롬프트를 통해 문제를 변수와 방정식으로 점진적으로 형식화하기 위해 LLM을 사용한다.
- 각 문장이 변수나 방정식을 선언하도록 하고 모든 양을 단일 변수에 매핑하도록 하는 원칙을 포함하는 Declarative 프롬프트를 설계한다.
- 문제를 첨부하고 LLM이 자연어와 형식 선언이 혼합된 해답을 산출하도록 한다.
- 생성된 연립방정식을 LLM의 산술 대신 외부 기호 해석기(SymPy)에 전달한다.
- CoT, PAL, Declarative 프롬프트를 포함한 여러 프롬핑 변형 및 SymPy 유무를 비교한다.
실험 결과
연구 질문
- RQ1점진적 선언적 형식화와 기호 해석기가 결합되어 기존의 LLM 기반 방법과 비교해 수학 단어 문제에서 동등하거나 더 뛰어날 수 있는가?
- RQ2선언적 프롬핑이 절차적 방법보다 더 어려운 대수형 문제를 잘 다루는가?
- RQ3점진적 형식화와 원샷 또는 한 단계 형식화의 영향은 무엇인가?
- RQ4제안된 접근법이 GSM8k와 Algebra 데이터셋에서 PAL 및 CoT와 비교해 어떤 성능을 보이는가?
주요 결과
| 방법 | GSM8k | Algebra |
|---|---|---|
| CoT_8-shot (original) | 62.5±0.16 | 45.3±0.56 |
| CoT_3-shot (ours) | 58.9±0.16 | 47.9±1.18 |
| PAL_8-shot (original) | 70.2±0.25 | 51.7±0.21 |
| PAL_3-shot (ours) | 73.3±0.13 | 56.2±0.21 |
| Declarative_8-shot+SymPy | 64.7 | - |
| Declarative_3-shot+SymPy | 66.0±0.33 | - |
| Declarative_3-shot+principles+SymPy | 69.4±0.65 | 76.3±0.93 |
| Declarative_3-shot+principles | 22.4±0.27 | - |
| One-step Declarative_3-shot+SymPy | 57.5±0.06 | - |
- GSM8k에서 Declarative3-shot+principles+SymPy 구성은 PAL8-shot(69.4±0.65% 대 73.3±0.13%)과 비교 가능한 성능을 달성하며, 방정식은 SymPy가 푼다.
- Algebra 데이터셋에서 Declarative3-shot+principles+SymPy 방법은 PAL보다 절대 20%p 앞서며(76.3±0.93% 대 56.2±0.21%).
- 방정식을 푸는 것을 LLM에 직접 의뢰하는 것보다 SymPy를 사용해 푸는 것이 훨씬 더 나은 결과를 낳는다(Declarative3-shot+principles에서 66.0±0.33% 대 22.4±0.27%).
- 점진적 선언적 형식화가 한 단계 선언적 접근보다 성능을 향상시킨다( GSM8k에서 69.4±0.65% 대 57.5±0.06%).
- Algebra에서 선언적 프롬핑은 절차적 단계가 아닌 선언적 추론이 필요하기 때문에 CoT 및 PAL보다 효과적이다.
- 전반적으로 이 접근법은 외부 해석기와의 인터페이스에서 선언적이고 점진적인 표현의 이점을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.