[논문 리뷰] ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases
ToolAlpaca는 다양한 도구 사용 말뭉치를 자동으로 구축하고 소형 언어 모델을 미세 조정하여 일반화된 도구 사용 능력을 달성합니다. 보지 못한 도구에 대해 GPT-3.5와 견줄 만한 성능을 ~3.9k 개의 시뮬레이션 사례만으로 달성합니다.
Enabling large language models to utilize real-world tools effectively is crucial for achieving embodied intelligence. Existing approaches to tool learning have either primarily relied on extremely large language models, such as GPT-4, to attain generalized tool-use abilities in a zero-shot manner, or utilized supervised learning to train limited scopes of tools on compact models. However, it remains uncertain whether smaller language models can achieve generalized tool-use abilities without tool-specific training. To address this question, this paper introduces ToolAlpaca, a novel framework designed to automatically generate a diverse tool-use corpus and learn generalized tool-use abilities on compact language models with minimal human intervention. Specifically, ToolAlpaca first automatically creates a highly diversified tool-use corpus by building a multi-agent simulation environment. The corpus contains 3938 tool-use instances from more than 400 real-world tool APIs spanning 50 distinct categories. Subsequently, the constructed corpus is employed to fine-tune compact language models, resulting in two models, namely ToolAlpaca-7B and ToolAlpaca-13B, respectively. Finally, we evaluate the ability of these models to utilize previously unseen tools without specific training. Experimental results demonstrate that ToolAlpaca achieves effective generalized tool-use capabilities comparable to those of extremely large language models like GPT-3.5, demonstrating that learning generalized tool-use ability is feasible for compact language models.
연구 동기 및 목표
- 도구별 훈련 없이 소형 언어 모델이 일반화된 도구 사용 능력을 습득할 수 있는지 입증합니다.
- 소형 LM을 미세 조정하는 데 적합한 다양하고 잘 구성된 도구 사용 말뭉치를 자동으로 생성합니다.
- ToolAlpaca 말뭉치로의 미세 조정이 보지 못한 도구와 실제 API에 대해 일반화된 도구 사용을 가능하게 함을 보여줍니다.
제안 방법
- public-apis의 400개가 넘는 실제 도구를 표준화된 문서(이름, 소개, 설명, 함수 문서, OpenAPI 명세)로 변환하여 다양한 도구 세트를 구성합니다.
- LLM으로 구동되는 사용자, 어시스턴트, 도구 실행자 세 에이전트의 다중 턴 시뮬레이션을 통해 3,938개의 도구 사용 사례를 생성합니다.
- 생성된 말뭉치를 사용하여 Vicuna-7B 및 Vicuna-13B와 같은 소형 LMs를 미세 조정하고 보지 못한 시뮬레이션 도구 및 실제 도구에 대해 평가합니다.
- GPT-4를 사용한 기계 평가와 선택된 부분집합에 대한 수동 평가를 통해 다중 모달 및 보지 못한 도구에 대한 일반화를 평가합니다.
- 도구 세트 다양성이 일반화 성능에 미치는 영향을 정량화합니다.

실험 결과
연구 질문
- RQ1도구별 훈련 없이 소형 언어 모델이 일반화된 도구 사용 능력을 학습할 수 있는지 입증합니다.
- RQ2자동화되고 다양한 합성 데이터가 소형 LM이 보지 못한 도구와 실제 API에 일반화되도록 할 수 있습니까?
- RQ3도구 세트 다양성은 일반화 성능에 어떤 영향을 미칩니까?
- RQ4보지 못한 도구에서 ToolAlpaca가 대형 LMs(예: GPT-3.5)와 어떻게 비교됩니까?
주요 결과
- 미세 조정된 ToolAlpaca-7B와 ToolAlpaca-13B가 보지 못한 도구에서 기본 Vicuna 모델보다 더 높은 수용도/정확도를 달성합니다.
- ToolAlpaca-13B가 보지 못한 도구에서 GPT-3.5에 비견되는 성능을 달성합니다.
- 3.9k 시뮬레이션 케이스로의 학습은 실제 API에 대한 일반화를 가능하게 하며 ToolAlpaca가 Vicuna 기본선보다 우수합니다.
- ToolAlpaca는 데이터셋 밖의 다중 모달 도구(GPT4Tools 테스트 세트)에서 강한 일반화를 보여줍니다.
- 인스턴스 수가 동일하더라도 도구 세트 다양성을 높이면 검증 성능이 향상됩니다.
- 다양성은 소형 모델의 일반화된 도구 학습을 가능하게 하는 핵심 요소입니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.