QUICK REVIEW

[논문 리뷰] ART: Automatic multi-step reasoning and tool-use for large language models

Bhargavi Paranjape, Scott Lundberg|arXiv (Cornell University)|2023. 03. 16.

Topic Modeling인용 수 48

한 줄 요약

ART는 보지 못한 작업에 대해 도구 사용을 통합한 다단계 추론 프로그램을 자동으로 생성하여, 적은 샘플 프롬프팅과 Auto-CoT에 비해 성능을 향상시키면서도 확장 가능하고 인간이 편집할 수 있습니다.

ABSTRACT

Large language models (LLMs) can perform complex reasoning in few- and zero-shot settings by generating intermediate chain of thought (CoT) reasoning steps. Further, each reasoning step can rely on external tools to support computation beyond the core LLM capabilities (e.g. search/running code). Prior work on CoT prompting and tool use typically requires hand-crafting task-specific demonstrations and carefully scripted interleaving of model generations with tool use. We introduce Automatic Reasoning and Tool-use (ART), a framework that uses frozen LLMs to automatically generate intermediate reasoning steps as a program. Given a new task to solve, ART selects demonstrations of multi-step reasoning and tool use from a task library. At test time, ART seamlessly pauses generation whenever external tools are called, and integrates their output before resuming generation. ART achieves a substantial improvement over few-shot prompting and automatic CoT on unseen tasks in the BigBench and MMLU benchmarks, and matches performance of hand-crafted CoT prompts on a majority of these tasks. ART is also extensible, and makes it easy for humans to improve performance by correcting errors in task-specific programs or incorporating new tools, which we demonstrate by drastically improving performance on select tasks with minimal human intervention.

연구 동기 및 목표

새로운 작업을 제로샷 또는 소수 샷으로 분해하여 다단계 추론과 도구 사용을 가능하게 한다.
demonstrations를 검색하고 LLM이 추론 프로그램을 구성하도록 안내하기 위해 작업 라이브러리를 활용한다.
추론 과정에 외부 도구(검색, 코드 실행)를 통합하고 도구 출력 후 생성 재개를 수행한다.
BigBench, MMLU 및 관련 도구 사용 벤치마크에서 산술 및 알고리즘 과제에 중점을 두고 교차 작업 일반화를 입증한다.
인간의 피드백과 도구/라이브러리 업데이트가 LLM의 재학습 없이도 성능을 더욱 향상시킬 수 있는지를 보여준다.

제안 방법

구조화된 작업 라이브러리에서 관련 작업 시演를 검색하여 Few-shot 프롬프트를 형성한다.
분해를 하위 단계와 도구 호출이 포함된 프로그램으로 표현하며 Beurer-Kellner 영감을 받은 문법(PeG)을 사용한다.
도구 호출에서 생성을 일시 중지하고 도구를 실행한 뒤 도구 출력이 통합된 상태로 생성을 재개한다.
추론 흐름 안에서 외부 계산을 제공하기 위해 도구 라이브러리(검색, 코드 실행)를 사용한다.
모델 미세조정 없이도 작업 라이브러리와 도구를 수정하여 교정이나 새로운 도구 추가를 허용한다.
BigBench, MMLU 및 QA 과제에서 동결된 LLM(InstructGPT)와 코드 도구(Codex)를 사용하여 평가한다.

실험 결과

연구 질문

RQ1얼마나 얼어붙은 LLM이 작업 라이브러리의 시演를 활용하여 자동 도구 사용으로 보지 못한 작업을 다단계로 분해할 수 있는가?
RQ2추론 체인 내 도구 호출이 복합 과제에서 기본 프롬프트 및 자동으로 생성된 CoT 대비 측정 가능한 이점을 제공하는가?
RQ3작업 특화된 분해나 도구 사용 감독 없이도 ART가 교차 작업 전이 벤치마크(BigBench, MMLU)에서 성능을 발휘하는가?
RQ4사람의 루프 편집이 작업/도구 라이브러리의 추가로 모델 미세조정 없이 성능을 더 개선할 수 있는 정도는 얼마인가?

주요 결과

ART는 BigBench의 32/34 및 모든 MMLU 과제에서 자동으로 생성된 CoT와 비교해 또는 능가하며 평균적으로 22포인트 이상 성능을 높인다.
도구 사용은 도구가 없는 기준선에 비해 테스트 시 성능을 평균 12.3포인트 이상 향상시킨다.
ART는 보지 못한 BigBench 및 MMLU 과제에서 평균적으로 소수 샷 프롬프팅보다 10.8포인트 더 향상된다.
도움을 받은 12개의 과제에서 ART는 알려진 GPT-3 최적치보다 평균적으로 20포인트 이상 앞선다.
작업 및 도구 라이브러리를 업데이트하는 쉬운 인간 개입이 최소한의 노력으로 목표된 개선을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.