[논문 리뷰] Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models
도구 문서화는 LLM이 zero-shot 설정에서 도구를 사용할 수 있게 하며, 종종 few-shot 데모를 따라잡거나 능가하고, 시각 및 언어 작업 전반에 걸쳐 큰 도구 세트와 보지 못한 도구에 확장 가능하다.
Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool's usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.
연구 동기 및 목표
- 도구 사용에서 데모 의존도를 줄이는 것을 동기로 삼아, 큐레이션 편향과 확장성 문제를 고려한다.
- 다중 도구 설정에서 LLM의 프롬프트 신호로 도구 문서를 대체 신호로 제안한다.
- 언어 및 비전 모달리티에 걸친 여섯 가지 과제에서 제로샷 문서를 경험적으로 평가한다.
- 문서만을 이용해 보지 않은 도구와 과제에 대한 즉시 연결(플러그앤플레이) 확장을 시연한다.
제안 방법
- 도구 문서 유무에 따른 프롬프트와 시연 수의 변화에 따른 비교.
- 여섯 가지 과제에서 평가: ScienceQA, TabMWP, NLVRv2, LLM Cloud CLI (보지 않은 대형 도구 세트), 이미지 편집, 및 비디오 추적.
- 환경에서 실행되는 도구 사용 프로그램을 생성하기 위해 GPT 기반 계획자(예: gpt-3.5-turbo)를 사용한다.
- 대형 도구 세트의 경우 TF-IDF로 도구 문서를 검색하고 프롬프트에 맞게 자른다.
- 새로 공개된 도구들에 대해 오직 문서에만 의존하여 제로샷 도구 사용을 시연한다(GroundingDino, SAM, XMem).
- 문서 길이가 성능에 미치는 영향을 분석하고 긴 컨텍스트를 포함한 고려사항을 다룬다.
실험 결과
연구 질문
- RQ1LLMs가 시연 없이 도구 문서만으로 제로샷으로 도구를 사용할 수 있는가?
- RQ2문서만 프롬프트가 비전 및 언어 벤치마크에서 시연과 어떻게 비교되는가?
- RQ3도구 문서가 성능 희생 없이 수백 개의 도구까지 확장될 수 있는가?
- RQ4이미지 편집 및 비디오 추적에 대한 보지 않은 도구들을 문서만으로도 효과적으로 사용할 수 있는가?
- RQ5도구 문서가 최근 도구 체인의 자동 지식 발견과 재발명을 가능하게 하는가?
주요 결과
- 도구 문서는 여러 벤치마크에서 몇 샷 프롬프트와 경쟁하거나 그보다 우수한 제로샷 도구 사용을 가능하게 한다.
- 새로 수집된 대형 도구 벤치마크(200 도구를 가진 LLM Cloud CLI)에서 문서를 활용한 제로샷이 문서 없이 한두 샷보다 우수하고, 세심한 데모 큐레이션에 대한 의존도를 줄인다.
- 도구 문서는 이미지 편집 및 비디오 추적용 미지의 도구를 문서만으로도 플러그앤플레이 방식으로 사용할 수 있게 해주며, Grounded-SAM 및 Track Anything과 유사한 워크플로를 문서만으로 재구성한다.
- 문서 길이를 약 600단어 정도까지 늘리면 제로샷 문서 시나리오에서 제로샷 성능이 향상되지만, 매우 긴 문서(>600단어)는 긴 입력으로 인한 문제로 성능이 저하될 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.