QUICK REVIEW

[논문 리뷰] ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving

Zhibin Gou, Shao Zhi-hong|arXiv (Cornell University)|2023. 09. 29.

Topic Modeling인용 수 20

한 줄 요약

ToRA는 자연어 추론과 도구 기반 계산을 통합하여 수학 문제를 해결하고, 10개 데이터셋에서 오픈 소스 모델 중 최첨단 성능을 달성하며, 주요 벤치마크에서 일부 클로즈드 모델과 어깨를 나란히 하거나 능가합니다.

ABSTRACT

Large language models have made significant progress in various language tasks, yet they still struggle with complex mathematics. In this paper, we propose ToRA a series of Tool-integrated Reasoning Agents designed to solve challenging mathematical problems by seamlessly integrating natural language reasoning with the utilization of external tools (e.g., computation libraries and symbolic solvers), thereby amalgamating the analytical prowess of language and the computational efficiency of tools. To train ToRA, we curate interactive tool-use trajectories on mathematical datasets, apply imitation learning on the annotations, and propose output space shaping to further refine models' reasoning behavior. As a result, ToRA models significantly outperform open-source models on 10 mathematical reasoning datasets across all scales with 13%-19% absolute improvements on average. Notably, ToRA-7B reaches 44.6% on the competition-level dataset MATH, surpassing the best open-source model WizardMath-70B by 22% absolute. ToRA-Code-34B is also the first open-source model that achieves an accuracy exceeding 50% on MATH, which significantly outperforms GPT-4's CoT result, and is competitive with GPT-4 solving problems with programs. Additionally, we conduct a comprehensive analysis of the benefits and remaining challenges of tool interaction for mathematical reasoning, providing valuable insights for future research.

연구 동기 및 목표

외부 도구와의 연결을 통해 고급 수학 추론을 수행하도록 오픈 소스 모델의 역량 확보를 촉진한다.
대화형 도구 사용 경로를 선별하고 모방 학습 및 출력 공간 형성을 통해 모델을 훈련한다.
합리적 추론과 프로그램형 도구 사용을 인터리브링(interleaving)하면 기존 접근법 대비 상당한 이점을 얻을 수 있음을 입증한다.

제안 방법

자연어 추론과 프로그램 기반 도구 사용을 결합한 인터리브된 추론 형식 설계(rationale과 a의 인터리브, 도구 출력 o 포함).
GPT-4를 사용한 GSM8k 및 MATH에서의 인터랙티브 도구 사용 경로를 수집하여 ToRA-코퍼스(ToRA-Corpus)를 생성.
ToRA-Corpus에 대한 모방 학습을 통해 문제를 제시할 때 다음 합리적 추론/프로그램/출력을 예측하도록 모델을 훈련한다.
도구 사용 행동을 다양화하고 수정하기 위해 교사 모델을 사용한 표출 공간 형성(샘플링 및 수정)을 적용한다.
ToRA 및 ToRA-Code 시리즈를 얻기 위해 7B–70B 매개변수의 LLaMA-2 및 CodeLLaMA 모델을 미세 조정한다.
GSM8k, MATH, GSM-Hard, SVAMP, TabMWP, ASDiv, SingleEQ, SingleOP, AddSub, MultiArith의 10개 수학 추론 데이터셋에서 평가한다.

실험 결과

연구 질문

RQ1인터리브된 자연어 합리적 추론(rationale)과 프로그램 기반 도구 사용이 오픈 소스 LLM의 수학 추론 능력을 향상시키는가?
RQ2모방 학습과 출력 공간 형성이 표준 수학 벤치마크에서 폐쇄형 소스 모델과의 격차를 줄일 수 있는가?
RQ3도구 통합이 모델 규모(7B–70B)와 문제 도메인에 따라 성능에 어떤 영향을 미치는가?
RQ4도구 주도 수학 추론의 주요 실패 모드와 도전 과제는 무엇인가?

주요 결과

ToRA 및 ToRA-Code는 모든 규모에서 10개의 수학 데이터셋에 걸쳐 이전의 오픈 소스 모델을 지속적으로 능가하며 평균적으로 13%-19%의 절대적 이점을 달성한다.
ToRA-70B는 MATH에서 WizardMath-70B를 절대점수로 22% 포인트 앞서며 코드 사용을 포함한 GPT-4 솔루션과 경쟁한다.
ToRA-Code-34B는 MATH 데이터셋에서 50% 정확도를 초과하며 GPT-4 CoT 결과를 능가하고 코드가 포함된 GPT-4와도 경쟁한다.
출력 공간 형성(샘플링 및 수정)은 특히 작은 모델에서 상당한 이점을 가져오며 MATH 정확도를 최대 4.5% 포인트 절대 증가시킨다.
합리적 추론 형식(rationale + program + 도구 출력)의 인터리브 형식은 합리적 추론만 또는 프로그램만 기준선보다 일관되게 우수하며, 대수학 및 Precalculus와 같은 하위 주제에서 두드러진 이점을 보인다.
ToRA는 문제당 평균 1.02회의 도구 상호 작용으로 빠른 제로샷 추론을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.