[論文レビュー] Chain of Tools: Large Language Model is an Automatic Multi-tool Learner
この論文は Automatic Tool Chain (ATC) を導入し、LLMs がプログラミングを通じて自動的にツールの連鎖を利用できるようにし、新しいツールを学習するブラックボックス検査手法を提案する。ToolFlow および RestBench データセットで評価されている。
Augmenting large language models (LLMs) with external tools has emerged as a promising approach to extend their utility, empowering them to solve practical tasks. Existing work typically empowers LLMs as tool users with a manually designed workflow, where the LLM plans a series of tools in a step-by-step manner, and sequentially executes each tool to obtain intermediate results until deriving the final answer. However, they suffer from two challenges in realistic scenarios: (1) The handcrafted control flow is often ad-hoc and constraints the LLM to local planning; (2) The LLM is instructed to use only manually demonstrated tools or well-trained Python functions, which limits its generalization to new tools. In this work, we first propose Automatic Tool Chain (ATC), a framework that enables the LLM to act as a multi-tool user, which directly utilizes a chain of tools through programming. To scale up the scope of the tools, we next propose a black-box probing method. This further empowers the LLM as a tool learner that can actively discover and document tool usages, teaching themselves to properly master new tools. For a comprehensive evaluation, we build a challenging benchmark named ToolFlow, which diverges from previous benchmarks by its long-term planning scenarios and complex toolset. Experiments on both existing datasets and ToolFlow illustrate the superiority of our framework. Analysis on different settings also validates the effectiveness and the utility of our black-box probing algorithm.
研究の動機と目的
- 手作成されたワークフローを超えて、LLMs が自動的なマルチツール使用者として機能することを促す。
- ツール・プロトコルから実行可能なツール使用プログラムを生成するATCを提案する。
- 新しいツールを自律的に文書化・習得させるためのブラックボックス検査法を導入する。
- 長期的な計画と複雑なツール間依存関係を伴う挑戦的なベンチマークとして ToolFlow を開発する。
- データセット全体で、ベースラインより高い効率とツール学習能力を示す。
提案手法
- 入力-出力データフローを学習するために、引数、スキーマ、状態を含む詳細なツール・プロトコルを LLMs に提供する。
- タスクを解決するために、複数のツールを順次呼び出す実行可能なプログラムを LLM に生成させる。
- 実行中に誤ったツール呼び出しを特定し訂正するための、原因追跡可能な(attributable)リフレクション機構を導入する。
- LLM が新しいツール・プロトコルを発見・文書化するためのテスト事例を生成するブラックボックス検査コンポーネントを追加する。
- ツール依存関係を扱い、検査範囲を最大化する一連の検査アルゴリズムを実装する。
- 既存の RestBench データセットと新規 ToolFlow ベンチマークを用いて、成功率、経路正確さ、ツール精度の指標で評価する。
実験結果
リサーチクエスチョン
- RQ1手作りの制御フローを用いず、ツール・プロトコルを介してツールの連鎖を理解し活用できるか?
- RQ2LLM は複数のツールを編成する実行可能なプログラムをどれだけ効果的に生成できるか?
- RQ3LLM は検査を通じて新しいツール・プロトコルを自律的に発見・文書化できるか?
- RQ4提案された ATC フレームワークは、ベースラインと比較して計画効率とツールカバレッジを改善しますか?
- RQ5ブラックボックス検査機構は現実的な設定でツールセットの範囲をどのように拡張しますか?
主な発見
- LLM はツール・プロトコルを理解し、ツール連鎖をプログラム可能に計画する能力を示す。
- ATC はマルツール・パイプラインの自動構成と実行を可能にし、ベースラインより効率を改善する。
- 原因追跡可能なリフレクション機構は、誤ったツール呼び出しを特定し、プログラムをそれに応じて修正するのに役立つ。
- ブラックボックス検査により LLM は新しいツール・プロトコルを学習・文書化し、ツールのカバレッジを拡大する。
- ToolFlow は長期的な計画と相互依存するツールデータフローを伴う挑戦的な設定を提供し、フレームワークの有効性を検証する。
- 実験は、複数のデータセットとバックボーンにおいて ATC と検査の優れた性能を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。