Skip to main content
QUICK REVIEW

[논문 리뷰] Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning

Beichen Zhang, Kun Zhou|arXiv (Cornell University)|2023. 06. 04.
Topic Modeling인용 수 9
한 줄 요약

The paper introduces CARP, a Chinese dataset with intermediate-step annotations for computation-heavy algebra, and proposes DELI, a two-stage deliberation method using tool interfaces to improve LLM math reasoning; DELI outperforms baselines on CARP and six other datasets.

ABSTRACT

Chain-of-thought prompting~(CoT) and tool augmentation have been validated in recent work as effective practices for improving large language models~(LLMs) to perform step-by-step reasoning on complex math-related tasks. However, most existing math reasoning datasets may be not able to fully evaluate and analyze the ability of LLMs in manipulating tools and performing reasoning, as they may only require very few invocations of tools or miss annotations for evaluating intermediate reasoning steps. To address the issue, we construct extbf{CARP}, a new Chinese dataset consisting of 4,886 computation-intensive algebra problems with formulated annotations on intermediate steps. In CARP, we test four LLMs with CoT prompting, and find that they are all prone to make mistakes at the early steps of the solution, leading to wrong answers. Based on this finding, we propose a new approach that can deliberate the reasoning steps with tool interfaces, namely extbf{DELI}. In DELI, we first initialize a step-by-step solution based on retrieved exemplars, then iterate two deliberation procedures that check and refine the intermediate steps of the generated solution, from the perspectives of tool manipulation and natural language reasoning, until obtaining converged solutions or reaching the maximum turn. Experimental results on CARP and six other datasets show that the proposed DELI mostly outperforms competitive baselines, and can further boost the performance of existing CoT methods. Our data and code are available in \url{https://github.com/RUCAIBox/CARP}.

연구 동기 및 목표

  • 계산 집중 수학 추론에서 명시적 중간 단계와 함께 LLM의 견고한 평가를 촉진한다.
  • 오류의 체계적 분석을 위한 중간 식(EFG)이 주석된 데이터셋(CARP)을 제공한다.
  • 단계별 솔루션을 다듬기 위한 도구 보조 의사결정 프레임워크(DELI)를 개발한다.
  • DELI의 효과를 CARP 및 여섯 개의 다른 계산 집중 수학 데이터셋에서 입증한다.

제안 방법

  • 계산 집중 대수 문제에 대한 4,886 샘플의 중국어 데이터셋 CARP를 도입하고, 주석이 달린 표현 흐름 그래프(EFG)를 제공한다.
  • 계산 보조를 위한 세부 도구 인터페이스(Numerical Computation, Equation Solving, Expression Transformation, 그리고 think)를 SymPy를 기반으로 정의한다.
  • DELI를 제안한다: Retrieval-augmented CoT로 초기화한 뒤, 도구 조작과 사고 사유의 두 차례의 이 deliberation 절차를 통해 수렴 또는 최대 턴 수에 도달할 때까지 반복적으로 다듬는다.
  • 초기 해결책을 시드하고 도구 호출의 형식적 행동 및 이후의 자연어 수정 단계로 반복적 다듀를 안내하기 위해 k개의 본 exemplar를 사용하여 검색한다.
  • CARP 및 여섯 개의 추가 데이터셋(Algebra, Prealgebra, Count. & Prob., NT, GK-Cloze, SAT-Math)에서 DELI를 다수의 baselines와 비교 평가한다.
  • 지표로 ExpAcc(중간 표현 정확도)와 Fail@where(초기/중간/최종 오류 위치)를 제시한다.

실험 결과

연구 질문

  • RQ1중간 단계가 주석된 경우 일반적인 CoT를 활용한 LLM이 계산 집중 대수 문제를 해결할 수 있는가?
  • RQ2DELI라는 전용 도구 의사결정 프레임워크가 CARP 및 다른 데이터셋에서 중간 단계의 정확도와 최종 답에 미치는 영향은 어떠한가?
  • RQ3도구와 반복적 의사결정이 보통 잘못된 최종 해답으로 이어지는 초기 단계의 오류를 줄이는가?
  • RQ4검색 보강 초기화가 수학 문제의 단계별 풀이를 얼마나 개선하는가?

주요 결과

MethodCARPAlgebraPrealgebraCPNTGKCSATAvg
Random CoT49.3949.3755.5732.9129.8114.4165.9142.48
Complex CoT48.0651.6453.7332.9132.22---
Retrieval CoT63.9353.7556.7233.1230.00---
PAL40.0034.2950.5235.8631.305.9347.7335.09
ReAct64.1154.5154.5341.7731.6716.9472.2748.07
LP-49.6052.3030.2029.80---
PHP61.6854.4257.8636.7135.3716.9471.8247.82
Iterative CoT61.2752.7455.3433.9729.8114.4169.5545.30
Iterative ReAct61.1753.9252.1237.3432.2215.2570.0046.00
DELI73.4659.6558.3239.0333.1517.8074.5450.85
  • 표준 CoT를 사용하는 LLM은 CARP 문제의 절반 이상을 해결하기 어렵고 초기 단계에서 종종 오류를 범한다.
  • DELI는 CARP(및 다른 데이터셋)에서 베이스라인에 비해 명확한 정확도 향상을 보이며, 기존 CoT 방법을 추가로 향상시킬 수 있다.
  • DELI의 두 단계 의사결정(도구 조작 및 사고의 흐름)은 중간 추론 지표(ExpAcc)를 개선하고 잘못된 최종 해를 줄인다.
  • DELI는 다양한 CoT 프롬프트 방법과 결합될 때 일관되게 성능을 향상시킨다.
  • DELI를 활용한 반복적 의사결정은 수렴하고 정확도를 향상시키며, 의도된 점검이 없는 순수한 반복적 변형은 성능이 떨어질 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.