[논문 리뷰] Toolformer: Language Models Can Teach Themselves to Use Tools
Toolformer는 자가지도 루프에서 언제 어떤 외부 도구를 API를 통해 호출할지 결정하도록 언어 모델을 학습시키며, 핵심 언어 모델링 능력을 유지하면서 다양한 작업에서 강력한 제로샷 성능을 얻는다.
Language models (LMs) exhibit remarkable abilities to solve new tasks from just a few examples or textual instructions, especially at scale. They also, paradoxically, struggle with basic functionality, such as arithmetic or factual lookup, where much simpler and smaller models excel. In this paper, we show that LMs can teach themselves to use external tools via simple APIs and achieve the best of both worlds. We introduce Toolformer, a model trained to decide which APIs to call, when to call them, what arguments to pass, and how to best incorporate the results into future token prediction. This is done in a self-supervised way, requiring nothing more than a handful of demonstrations for each API. We incorporate a range of tools, including a calculator, a Q\&A system, two different search engines, a translation system, and a calendar. Toolformer achieves substantially improved zero-shot performance across a variety of downstream tasks, often competitive with much larger models, without sacrificing its core language modeling abilities.
연구 동기 및 목표
- 언어 모델이 API를 통해 어떤 외부 도구를 언제 호출할지 자율적으로 학습하도록 한다.
- 도구 호출로 데이터를 보강하여 사람의 주석 없이 제로샷 및 소수 샷 작업 성능을 향상시킨다.
- 도구 사용 동작을 추가하되 모델의 일반적인 언어 모델링 능력을 유지한다.
- 도구 사용이 특정 작업별 감독 없이 다양한 작업과 도구에 걸쳐 확장될 수 있음을 입증한다.
제안 방법
- 각 API 호출을 <API> ... </API> 주석을 사용한 텍스트 임베디드 토큰 시퀀스로 표현한다.
- LM에 후보 API 호출로 데이터를 주석 달게 프롬프트하고 이를 실행한 뒤, 미래 토큰 예측 이득을 측정하는 자기지도 손실에 근거해 필터링하여 C*를 생성한다.
- API 호출과 결과를 포함했을 때의 손실 L_i^+를 계산하고, API 호출 없이 입력만 있거나 입력만 있을 때의 최소 손실 L_i^-를 계산한다.
- 손실 감소 임계값 τ_f를 충족하는 API 호출만 보존하고, 유용한 호출을 원래 텍스트에 삽입해 C*를 형성한 다음 표준 LM 목표로 C*에서 LM을 파인튜닝한다.
- 추론 중에는 모델이 →를 출력할 때까지 일반적으로 생성하고, API 결과를 가져와 API 응답을 삽입하여 디코딩을 계속한다.
실험 결과
연구 질문
- RQ1언어 모델이 인간의 감독 없이 언제 외부 도구를 호출할지 결정하도록 학습할 수 있을까?
- RQ2어떤 도구(QA, 검색, 계산기, 번역, 달력)가 다양한 작업에서 가장 일관된 이득을 제공하는가?
- RQ3도구가 보강된 데이터로의 파인튜닝이 기본 언어 모델링 능력을 저하시키는가 아니면 보존하는가?
- RQ4모델 크기가 제로샷 설정에서 도구 활용 능력에 어떻게 영향을 미치는가?
주요 결과
- Toolformer는 비슷한 크기의 베이스라인에 비해 다양한 작업에서 제로샷 성능을 크게 향상시킨다.
- LAMA 하위집합(SQuAD, Google-RE, T-REx)에서 Toolformer는 GPT-J 베이스라인보다 우수하며 GPT-3(175B)와도 경쟁적이다.
- 수학 벤치마크(ASDiv, SVAMP, MAWPS)에서 계산기 호출을 사용하는 Toolformer는 베이스라인을 크게 능가하며, 대부분의 예에서 계산기를 사용한다.
- QA 데이터셋(WebQuestions, Natural Questions, TriviaQA)에서 Toolformer는 GPT-J 베이스라인을 개선하고 검색을 위한 검색 엔진으로 Wikipedia 검색에 크게 의존한다.
- 다국어 QA(MLQA)에서 Toolformer는 기계 번역 사용의 이점을 보이나 언어에 따라 이익이 다르고, 더 큰 모델이 여전히 일부 규칙에서 Toolformer보다 우수하다.
- 시간 기반 데이터셋(TempLAMA, Dateset)에서 달력 도구가 유용할 때 Toolformer가 탁월하며, Dateset은 달력이 사용될 때 강한 이득을 보인다.
- WikiText 및 CCNet 하위집합에서의 Perplexity는 추론 시 API 사용이 비활성화되면 API 호출 추가가 LM의 perplexity를 증가시키지 않음을 나타내며, 핵심 LM 능력을 보존한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.