[論文レビュー] Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models
ツール文書化はLLMsがゼロショットでツールを利用できるようにし、しばしば数ショットデモと同等かそれを上回る。視覚と言語タスク全体の大規模ツールセットや未見ツールにもスケールする。
Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool's usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.
研究の動機と目的
- データ選択バイアスとスケーラビリティの懸念から、ツール使用のデモ依存を減らす動機づけ。
- マルチツール設定における代替の prompting signalとしてツール文書化を提案。
- 言語と視覚モダリティを跨ぐ六つのタスクを対象に、ゼロショットの文書化を実証的に評価。
- 文書化だけを用いた未見ツール・タスクへのプラグアンドプレー拡張を実証。
提案手法
- ツール文書化の有無とデモ数を変えてプロンプトを比較。
- 六つのタスクで評価:ScienceQA、TabMWP、NLVRv2、LLM Cloud CLI(未見の大規模ツールセット)、画像編集、動画追跡。
- GPTベースのプランナー(例:gpt-3.5-turbo)を用いて、環境が実行するツール利用プログラムを生成。
- 大規模ツールセットの場合、TF-IDFでツールドキュメントを取得し、プロンプトに収まるよう切り詰め。
- GroundingDino、SAM、XMemなど、新規ツールを文書化のみに頼ってゼロショットツール利用を示す。
- 文書の長さが性能に与える影響を、長文コンテキストを含むケースも含めて分析。

実験結果
リサーチクエスチョン
- RQ1ツール文書のみでデモなしでもLLMはツールをゼロショットで利用できるか?
- RQ2文書のみの prompting は視覚・言語ベンチマークでデモと比べてどうか?
- RQ3ツール文書は何百工具もスケールして性能を損なわず運用可能か?
- RQ4画像編集や動画追跡の未見ツールを文書のみで効果的に利用できるか?
- RQ5ツール文書は最近のツール群の知識発見と再発明を自動化できるか?
主な発見
- ツール文書はゼロショットのツール利用を促進し、いくつかのベンチマークで数ショットプロンプトと競合するかそれを上回る。
- 新規収集の大規模ツールベンチマーク(200ツールのLLM Cloud CLI)では、文書化付きゼロショットがデモ無しの少数ショットを上回り、デモ選定の依存を減らす。
- ツール文書化は未見ツールの画像編集・動画追跡へのプラグアンドプレー利用を可能にし、Grounded-SAMやTrack Anythingに類似したワークフローを文書のみで再構築。
- 文書の長さを約600語程度まで増やすとゼロショット文書シナリオでの性能が向上する一方、非常に長い文書(>600語)は入力長の制約で性能を低下させることがある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。