[論文レビュー] API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs
API-BankはLLMのツール利用を評価するための実行可能な評価システムを73のAPIと314の対話で導入し、ツール拡張モデル(Lynx)のトレーニングデータを生成するマルチエージェント手法も提供します。
Recent research has demonstrated that Large Language Models (LLMs) can enhance their capabilities by utilizing external tools. However, three pivotal questions remain unanswered: (1) How effective are current LLMs in utilizing tools? (2) How can we enhance LLMs' ability to utilize tools? (3) What obstacles need to be overcome to leverage tools? To address these questions, we introduce API-Bank, a groundbreaking benchmark, specifically designed for tool-augmented LLMs. For the first question, we develop a runnable evaluation system consisting of 73 API tools. We annotate 314 tool-use dialogues with 753 API calls to assess the existing LLMs' capabilities in planning, retrieving, and calling APIs. For the second question, we construct a comprehensive training set containing 1,888 tool-use dialogues from 2,138 APIs spanning 1,000 distinct domains. Using this dataset, we train Lynx, a tool-augmented LLM initialized from Alpaca. Experimental results demonstrate that GPT-3.5 exhibits improved tool utilization compared to GPT-3, while GPT-4 excels in planning. However, there is still significant potential for further improvement. Moreover, Lynx surpasses Alpaca's tool utilization performance by more than 26 pts and approaches the effectiveness of GPT-3.5. Through error analysis, we highlight the key challenges for future research in this field to answer the third question.
研究の動機と目的
- ユーザーのニーズに基づく設計原理と評価基準を定義するため、500件のインタビューから取得した要件を基にする。
- 計画、検索、およびAPI呼び出しをテストするために73のAPIと314件の注釈付き対話からなる評価システムを構築する。
- ツール利用の多様な対話を生成するスケーラブルなトレーニングデータ生成手法(マルチエージェント)を作成する。
- API-Bankデータでツール拡張LLM(Lynx)を微調整し、既知のLLMsと比較する。
- API使用における課題を特定し、エラータイプを分析して今後の研究へ反映させる。
提案手法
- 実行可能な評価システムを、753のAPIコールを含む73のAPIと314のツール使用対話から構築する。
- 評価データを注釈付けして、Call、Retrieval+Call、およびPlan+Retrieval+Callの能力を評価する。
- APIが未知の場合に検索機能を有効にするためのAPI Searchを導入する。
- ツール拡張のためのトレーニングデータセットを、2,138のAPIと1,888の対話(計4,149のAPIコール)で作成する。
- 高品質で低コストのトレーニングデータを自動生成するためのマルチエージェントデータ生成(5つのエージェント)を提案する。
- Lynx(LLaMA-7Bベース)をAPI-Bankのトレーニングデータで微調整し、複数のベースラインと比較評価を行う。
実験結果
リサーチクエスチョン
- RQ1現在のLLMは、計画、検索、および呼び出しタスクを横断して外部APIツールをどれだけ効果的に活用できているか。
- RQ2データ・トレーニング・パイプライン設計を通じて、LLMのツール利用をどう改善できるか。
- RQ3信頼性とスケーラビリティを備えたツール拡張LLMを妨げる主な障害は何か。
- RQ4高品質で多様なトレーニングデータセットがツール拡張モデルの性能にどのように影響するか。
主な発見
| LLM | Call - 正確性(%) | Call - Rouge-L | Retrieve+Call - 正確性(%) | Retrieve+Call - Rouge-L | Plan+Retrieve+Call - 正確性(%) | Plan+Retrieve+Call - Rouge-L | Total - 正確性(%) | Total - Rouge-L |
|---|---|---|---|---|---|---|---|---|
| Alpaca-7B | 24.06 | 0.0204 | 5.19 | 0.0019 | 0.00 | 0.086 | 15.19 | 0.0318 |
| ChatGLM-6B | 23.62 | 0.2451 | 13.33 | 0.2173 | 0.00 | 0.1522 | 16.42 | 0.2191 |
| GPT-3 Davinci | 0.50 | 0.1035 | 1.48 | 0.091 | 0.00 | 0.0156 | 0.57 | 0.0814 |
| GPT-3.5-turbo | 59.40 | 0.4598 | 38.52 | 0.3758 | 22.00 | 0.3809 | 47.16 | 0.4267 |
| GPT-4 | 63.66 | 0.3691 | 37.04 | 0.351 | 70.00 | 0.4808 | 60.24 | 0.3910 |
| Lynx-7B (Fine-tuned) | 49.87 | 0.4332 | 30.37 | 0.2503 | 20.00 | 0.3425 | 39.58 | 0.3794 |
- GPT-3.5-turboとGPT-4は、非指示調整モデルと比べてツール利用能力が高く、GPT-4は計画に長けている。
- API-Bankで訓練されたLynxは、API Callの正確性でAlpaca-7Bを約26ポイント上回り、GPT-3.5に近づき、GPT-4との差をかなり縮める。
- 総合的なベンチマーク(API-Bank)は、ツール拡張LLM評価において最も多様性・現実性・カバレッジを提供している。
- マルチエージェントデータ生成によりアノテーションコストが大幅に削減され(対話あたり0.1 USD)、高品質なトレーニングデータ(可用性94%)を得られる。
- エラー分析により、主な課題をAPI名の不一致、誤ったAPI呼び出し、およびパラメータ関連の失敗として特定でき、今後の改善を指針づける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。