Skip to main content
QUICK REVIEW

[논문 리뷰] ART: Automatic multi-step reasoning and tool-use for large language models

Bhargavi Paranjape, Scott Lundberg|arXiv (Cornell University)|2023. 03. 16.
Topic Modeling인용 수 48
한 줄 요약

ART는 보지 못한 작업에 대해 도구 사용을 통합한 다단계 추론 프로그램을 자동으로 생성하여, 적은 샘플 프롬프팅과 Auto-CoT에 비해 성능을 향상시키면서도 확장 가능하고 인간이 편집할 수 있습니다.

ABSTRACT

Large language models (LLMs) can perform complex reasoning in few- and zero-shot settings by generating intermediate chain of thought (CoT) reasoning steps. Further, each reasoning step can rely on external tools to support computation beyond the core LLM capabilities (e.g. search/running code). Prior work on CoT prompting and tool use typically requires hand-crafting task-specific demonstrations and carefully scripted interleaving of model generations with tool use. We introduce Automatic Reasoning and Tool-use (ART), a framework that uses frozen LLMs to automatically generate intermediate reasoning steps as a program. Given a new task to solve, ART selects demonstrations of multi-step reasoning and tool use from a task library. At test time, ART seamlessly pauses generation whenever external tools are called, and integrates their output before resuming generation. ART achieves a substantial improvement over few-shot prompting and automatic CoT on unseen tasks in the BigBench and MMLU benchmarks, and matches performance of hand-crafted CoT prompts on a majority of these tasks. ART is also extensible, and makes it easy for humans to improve performance by correcting errors in task-specific programs or incorporating new tools, which we demonstrate by drastically improving performance on select tasks with minimal human intervention.

연구 동기 및 목표

  • 새로운 작업을 제로샷 또는 소수 샷으로 분해하여 다단계 추론과 도구 사용을 가능하게 한다.
  • demonstrations를 검색하고 LLM이 추론 프로그램을 구성하도록 안내하기 위해 작업 라이브러리를 활용한다.
  • 추론 과정에 외부 도구(검색, 코드 실행)를 통합하고 도구 출력 후 생성 재개를 수행한다.
  • BigBench, MMLU 및 관련 도구 사용 벤치마크에서 산술 및 알고리즘 과제에 중점을 두고 교차 작업 일반화를 입증한다.
  • 인간의 피드백과 도구/라이브러리 업데이트가 LLM의 재학습 없이도 성능을 더욱 향상시킬 수 있는지를 보여준다.

제안 방법

  • 구조화된 작업 라이브러리에서 관련 작업 시演를 검색하여 Few-shot 프롬프트를 형성한다.
  • 분해를 하위 단계와 도구 호출이 포함된 프로그램으로 표현하며 Beurer-Kellner 영감을 받은 문법(PeG)을 사용한다.
  • 도구 호출에서 생성을 일시 중지하고 도구를 실행한 뒤 도구 출력이 통합된 상태로 생성을 재개한다.
  • 추론 흐름 안에서 외부 계산을 제공하기 위해 도구 라이브러리(검색, 코드 실행)를 사용한다.
  • 모델 미세조정 없이도 작업 라이브러리와 도구를 수정하여 교정이나 새로운 도구 추가를 허용한다.
  • BigBench, MMLU 및 QA 과제에서 동결된 LLM(InstructGPT)와 코드 도구(Codex)를 사용하여 평가한다.

실험 결과

연구 질문

  • RQ1얼마나 얼어붙은 LLM이 작업 라이브러리의 시演를 활용하여 자동 도구 사용으로 보지 못한 작업을 다단계로 분해할 수 있는가?
  • RQ2추론 체인 내 도구 호출이 복합 과제에서 기본 프롬프트 및 자동으로 생성된 CoT 대비 측정 가능한 이점을 제공하는가?
  • RQ3작업 특화된 분해나 도구 사용 감독 없이도 ART가 교차 작업 전이 벤치마크(BigBench, MMLU)에서 성능을 발휘하는가?
  • RQ4사람의 루프 편집이 작업/도구 라이브러리의 추가로 모델 미세조정 없이 성능을 더 개선할 수 있는 정도는 얼마인가?

주요 결과

  • ART는 BigBench의 32/34 및 모든 MMLU 과제에서 자동으로 생성된 CoT와 비교해 또는 능가하며 평균적으로 22포인트 이상 성능을 높인다.
  • 도구 사용은 도구가 없는 기준선에 비해 테스트 시 성능을 평균 12.3포인트 이상 향상시킨다.
  • ART는 보지 못한 BigBench 및 MMLU 과제에서 평균적으로 소수 샷 프롬프팅보다 10.8포인트 더 향상된다.
  • 도움을 받은 12개의 과제에서 ART는 알려진 GPT-3 최적치보다 평균적으로 20포인트 이상 앞선다.
  • 작업 및 도구 라이브러리를 업데이트하는 쉬운 인간 개입이 최소한의 노력으로 목표된 개선을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.