Skip to main content
QUICK REVIEW

[논문 리뷰] Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification

Aojun Zhou, Ke Wang|arXiv (Cornell University)|2023. 08. 15.
Topic Modeling인용 수 18
한 줄 요약

이 논문은 GPT-4 Code Interpreter의 코드 생성/실행을 분석하고 명시적 코드 기반 자기 검증(CSV)과 검증 주도 가중 다수결 투표를 제안하여 수학 문제 해결 능력을 높이며 CSV와 투표를 결합한 후 GPT-4 Code에서 MATH에서 84.32%를 달성합니다.

ABSTRACT

Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has brought significant advancements in addressing math reasoning problems. In particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter, shows remarkable performance on challenging math datasets. In this paper, we explore the effect of code on enhancing LLMs' reasoning capability by introducing different constraints on the extit{Code Usage Frequency} of GPT-4 Code Interpreter. We found that its success can be largely attributed to its powerful skills in generating and executing code, evaluating the output of code execution, and rectifying its solution when receiving unreasonable outputs. Based on this insight, we propose a novel and effective prompting method, explicit \uline{c}ode-based \uline{s}elf-\uline{v}erification~(CSV), to further boost the mathematical reasoning potential of GPT-4 Code Interpreter. This method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to use code to self-verify its answers. In instances where the verification state registers as ``False'', the model shall automatically amend its solution, analogous to our approach of rectifying errors during a mathematics examination. Furthermore, we recognize that the states of the verification result indicate the confidence of a solution, which can improve the effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we achieve an impressive zero-shot accuracy on MATH dataset extbf{(53.9\% $ o$ 84.3\%)}.

연구 동기 및 목표

  • 코드 생성, 실행 및 자기 디버깅이 GPT-4 Code Interpreter의 수학 문제 해결에 어떻게 기여하는지 평가합니다.
  • 명시적 코드 기반 자기 검증(CSV) 프롬프트가 정확도와 안정성을 향상시키는지 조사합니다.
  • 검증 주도 가중 다수결 투표 체계를 개발하여 집계에서 검증 상태를 활용합니다.
  • 오픈 소스 모델 조정을 돕기 위해 새로운 지시문 준수 데이터셋(MATH-code, MMLU-Math-code)을 제공합니다.

제안 방법

  • 제한된 프롬프트에서의 GPT-4 Code Interpreter의 코드 사용에 대한 체계적 분석(코드 불가 vs. 한 번만 허용 vs. 무제한).
  • 모델이 코드 기반 해답을 생성하고 검증하며 검증 실패 시 추론을 조정하도록 하는 명시적 코드 기반 자기 검증(CSV) 프롬프트의 도입.
  • True/Uncertain/False 검증 상태에 가중치를 부여하여 최종 정답 선택을 개선하는 검증 주도 가중 다수결 투표 구현.
  • 코드 사용 빈도에 따른 어려운 문제에서의 퍼포먼스 차이를 포함한 MATH, GSM8K, MMLU-Math 데이터셋에 대한 평가 및 코드기반 검증과 자연어 검증 간의 비교, 코드 사용 빈도 변화에 따른 Ablation.
  • 재현성과 오픈 소스 모델의 미세 조정을 가능하게 하는 실험 데이터의 공개 공개.

실험 결과

연구 질문

  • RQ1GPT-4 Code Interpreter의 코드 생성/실행이 복잡한 수학 문제 해결에 어떻게 기여하는가?
  • RQ2명시적 코드 기반 자기 검증(CSV)이 정답 정확도와 신뢰성을 향상시키는가?
  • RQ3검증 주도 가중 다수결 투표가 검증 상태를 활용하여 최종 정답의 정확도를 더 높일 수 있는가?
  • RQ4다양한 난이도 수준과 데이터세트에서 코드 사용 빈도가 모델 성능에 미치는 영향은 무엇인가?

주요 결과

  • 코드 사용이 포함된 GPT-4 Code는 MATH에서 기본선 대비 상당히 높은 성능을 보인다(69.69% 대 53.90%).
  • 명시적 코드 기반 자기 검증(CSV)을 추가하면 MATH 정확도가 73.54%로 향상된다.
  • CSV와 검증 주도 가중 다수결 투표를 조합하면 MATH에서 84.32%(k=16 경로)에 도달한다.
  • 코드 사용 빈도는 특히 더 어려운 문제에서 정확도와의 양의 상관관계를 보인다.
  • 대부분의 하위 주제에서 Ablation에서 코드 기반 검증이 자연어 검증보다 우수하게 나타난다.
  • CSV와 투표를 결합하면 GSM8K 및 MMLU-Math에서도 최첨단 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.