Skip to main content
QUICK REVIEW

[논문 리뷰] ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases

Qiaoyu Tang, Ziliang Deng|arXiv (Cornell University)|2023. 06. 08.
Topic Modeling인용 수 16
한 줄 요약

ToolAlpaca는 다양한 도구 사용 말뭉치를 자동으로 구축하고 소형 언어 모델을 미세 조정하여 일반화된 도구 사용 능력을 달성합니다. 보지 못한 도구에 대해 GPT-3.5와 견줄 만한 성능을 ~3.9k 개의 시뮬레이션 사례만으로 달성합니다.

ABSTRACT

Enabling large language models to utilize real-world tools effectively is crucial for achieving embodied intelligence. Existing approaches to tool learning have either primarily relied on extremely large language models, such as GPT-4, to attain generalized tool-use abilities in a zero-shot manner, or utilized supervised learning to train limited scopes of tools on compact models. However, it remains uncertain whether smaller language models can achieve generalized tool-use abilities without tool-specific training. To address this question, this paper introduces ToolAlpaca, a novel framework designed to automatically generate a diverse tool-use corpus and learn generalized tool-use abilities on compact language models with minimal human intervention. Specifically, ToolAlpaca first automatically creates a highly diversified tool-use corpus by building a multi-agent simulation environment. The corpus contains 3938 tool-use instances from more than 400 real-world tool APIs spanning 50 distinct categories. Subsequently, the constructed corpus is employed to fine-tune compact language models, resulting in two models, namely ToolAlpaca-7B and ToolAlpaca-13B, respectively. Finally, we evaluate the ability of these models to utilize previously unseen tools without specific training. Experimental results demonstrate that ToolAlpaca achieves effective generalized tool-use capabilities comparable to those of extremely large language models like GPT-3.5, demonstrating that learning generalized tool-use ability is feasible for compact language models.

연구 동기 및 목표

  • 도구별 훈련 없이 소형 언어 모델이 일반화된 도구 사용 능력을 습득할 수 있는지 입증합니다.
  • 소형 LM을 미세 조정하는 데 적합한 다양하고 잘 구성된 도구 사용 말뭉치를 자동으로 생성합니다.
  • ToolAlpaca 말뭉치로의 미세 조정이 보지 못한 도구와 실제 API에 대해 일반화된 도구 사용을 가능하게 함을 보여줍니다.

제안 방법

  • public-apis의 400개가 넘는 실제 도구를 표준화된 문서(이름, 소개, 설명, 함수 문서, OpenAPI 명세)로 변환하여 다양한 도구 세트를 구성합니다.
  • LLM으로 구동되는 사용자, 어시스턴트, 도구 실행자 세 에이전트의 다중 턴 시뮬레이션을 통해 3,938개의 도구 사용 사례를 생성합니다.
  • 생성된 말뭉치를 사용하여 Vicuna-7B 및 Vicuna-13B와 같은 소형 LMs를 미세 조정하고 보지 못한 시뮬레이션 도구 및 실제 도구에 대해 평가합니다.
  • GPT-4를 사용한 기계 평가와 선택된 부분집합에 대한 수동 평가를 통해 다중 모달 및 보지 못한 도구에 대한 일반화를 평가합니다.
  • 도구 세트 다양성이 일반화 성능에 미치는 영향을 정량화합니다.
Figure 1: A high-level overview of ToolAlpaca, consisting of three components: (1)Toolset construction, where structured documentation for each tool is generated based on the brief introductions provided by public-apis. (2) Tool-use instance generation via multi-agent simulation. (3) ToolAlpaca mode
Figure 1: A high-level overview of ToolAlpaca, consisting of three components: (1)Toolset construction, where structured documentation for each tool is generated based on the brief introductions provided by public-apis. (2) Tool-use instance generation via multi-agent simulation. (3) ToolAlpaca mode

실험 결과

연구 질문

  • RQ1도구별 훈련 없이 소형 언어 모델이 일반화된 도구 사용 능력을 학습할 수 있는지 입증합니다.
  • RQ2자동화되고 다양한 합성 데이터가 소형 LM이 보지 못한 도구와 실제 API에 일반화되도록 할 수 있습니까?
  • RQ3도구 세트 다양성은 일반화 성능에 어떤 영향을 미칩니까?
  • RQ4보지 못한 도구에서 ToolAlpaca가 대형 LMs(예: GPT-3.5)와 어떻게 비교됩니까?

주요 결과

  • 미세 조정된 ToolAlpaca-7B와 ToolAlpaca-13B가 보지 못한 도구에서 기본 Vicuna 모델보다 더 높은 수용도/정확도를 달성합니다.
  • ToolAlpaca-13B가 보지 못한 도구에서 GPT-3.5에 비견되는 성능을 달성합니다.
  • 3.9k 시뮬레이션 케이스로의 학습은 실제 API에 대한 일반화를 가능하게 하며 ToolAlpaca가 Vicuna 기본선보다 우수합니다.
  • ToolAlpaca는 데이터셋 밖의 다중 모달 도구(GPT4Tools 테스트 세트)에서 강한 일반화를 보여줍니다.
  • 인스턴스 수가 동일하더라도 도구 세트 다양성을 높이면 검증 성능이 향상됩니다.
  • 다양성은 소형 모델의 일반화된 도구 학습을 가능하게 하는 핵심 요소입니다.
Figure 2: An instance of a tool documentation, composed of five essential parts: name, introduction, description, function documentation, OpenAPI specification .
Figure 2: An instance of a tool documentation, composed of five essential parts: name, introduction, description, function documentation, OpenAPI specification .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.