[논문 리뷰] MathPrompter: Mathematical Reasoning using Large Language Models
MathPrompter는 zero-shot chain-of-thought를 다중 대수적 및 파이썬식 해결 경로, 교차 확인 및 컨센서스 검증으로 LLM의 산술 추론 정확도를 높이고, 175B 모델으로 MultiArith에서 92.5%를 달성한다.
Large Language Models (LLMs) have limited performance when solving arithmetic reasoning tasks and often provide incorrect answers. Unlike natural language understanding, math problems typically have a single correct answer, making the task of generating accurate solutions more challenging for LLMs. To the best of our knowledge, we are not aware of any LLMs that indicate their level of confidence in their responses which fuels a trust deficit in these models impeding their adoption. To address this deficiency, we propose `MathPrompter', a technique that improves performance of LLMs on arithmetic problems along with increased reliance in the predictions. MathPrompter uses the Zero-shot chain-of-thought prompting technique to generate multiple Algebraic expressions or Python functions to solve the same math problem in different ways and thereby raise the confidence level in the output results. This is in contrast to other prompt based CoT methods, where there is no check on the validity of the intermediate steps followed. Our technique improves over state-of-the-art on the MultiArith dataset ($78.7\% ightarrow92.5\%$) evaluated using 175B parameter GPT-based LLM.
연구 동기 및 목표
- LLM의 수학 솔루션에서 중간 단계의 검증을 추가하여 신뢰성과 신뢰성을 다루는 문제를 해결한다.
- 표준 제로샷 프롬 prompting을 넘어 산술 추론 태스크의 정확도를 높인다.
- 사람의 문제 해결에서 영감을 받은 다중 해답 및 컨센서스 기반 검증 파이프라인을 도입한다.
- 벤치마크 데이터 세트에서 상태-of-the-art 제로샷 및 소수-shot 프롬 prompting 방법과의 경쟁력을 입증한다.
제안 방법
- 수학 문제의 각 항을 숫자를 변수(Qt)로 대체하여 대수적 템플릿으로 변환한다.
- 여러 분석적 해법을 제시하기 위해 다수의 해결 프롬프트(대수적 및 파이썬식)를 생성하여 서로 다른 해석적 해를 산출한다.
- 무작위 변수 할당에서 식을 평가하고 합의 여부를 확인한다.
- 합의에 도달하지 못하면 해결 및 검증 단계를 반복하고, 시도 간 최빈 최종 답을 보고한다.
- 최종 합의를 위해 algebraic 및 Pythonic 솔루션의 출력을 Python eval()로 계산하고 비교한다.
실험 결과
연구 질문
- RQ1제로샷 체인 오브-생각을 다중 경로 해결 및 검증으로 향상시켜 산술 정확도를 높일 수 있는가?
- RQ2중간 단계의 교차 확인과 다중 표현을 사용하면 수학 태스크에서 LLM의 신뢰성이 향상되는가?
- RQ3MathPrompter의 성능은 MultiArith에서 제로샷 및 소수-shot CoT 기준선과 어떻게 비교되는가?
- RQ4합의 기반 최종화가 여러 무작위 실험에서 효과적인가?
주요 결과
| 모델 | 정확도 |
|---|---|
| Zero-shot | 17.7% |
| Zero-shot (PaLM 540B) | 25.5% |
| Zero-shot-CoT | 78.7% |
| Zero-shot-CoT (PaLM 540B) | 66.1% |
| Zero-shot-CoT + self consistency (PaLM 540B) | 89.0% |
| Zero-shot-CoT ( MathPrompter ) | 92.5% |
| Few-Shot (2 samples) | 33.7% |
| Few-Shot (8 samples) | 33.8% |
| Few-Shot-CoT (2 samples) | 84.8% |
| Few-Shot-CoT (4 samples) | 90.5% |
| Few-Shot-CoT (8 samples) | 93.0% |
| Zero-Plus-Few-Shot-CoT (8 samples) | 92.8% |
- MathPrompter는 MultiArith에서 92.5% 정확도를 달성하여 Zero-shot-CoT 기준선을 능가한다.
- 540B 매개변수의 Zero-shot-CoT와 비교 가능한 소수-shot-CoT 방법과 동일하거나 초과하는 성능을 보인다.
- 다양한 변형에서 이 접근법은 Kojima et al. (2022)이 보고한 78.7%의 Zero-shot-CoT(175B) 수준의 최첨단 성능을 넘어 개선된다.
- 대수적 및 파이썬식 해법을 모두 생성하고 무작위 평가에서 다수의 합의를 사용해 최종 답을 선택하는 방식에 의존한다.
- 동일하게 합의가 있어도 두 해법이 모두 잘못된 경우가 남아 있어 남은 한계를 부각시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.