[論文レビュー] RestGPT: Connecting Large Language Models with Real-World RESTful APIs
RestGPT は coarse-to-fine online planning ループと API 実行エンジンを用いて LLM と現実世界の RESTful API を統合し、RestBench の実際のシナリオでデモンストレーションされた。
Tool-augmented large language models (LLMs) have achieved remarkable progress in tackling a broad range of tasks. However, existing methods are mainly restricted to specifically designed tools and fail to fulfill complex instructions, having great limitations when confronted with real-world scenarios. In this paper, we explore a more realistic scenario by connecting LLMs with RESTful APIs, which adhere to the widely adopted REST software architectural style for web service development. To address the practical challenges of tackling complex instructions, we propose RestGPT, which exploits the power of LLMs and conducts a coarse-to-fine online planning mechanism to enhance the abilities of task decomposition and API selection. RestGPT also contains an API executor tailored for calling RESTful APIs, which can meticulously formulate parameters and parse API responses. To fully evaluate the performance of RestGPT, we propose RestBench, a high-quality benchmark which consists of two real-world scenarios and human-annotated instructions with gold solution paths. Experiments show that RestGPT is able to achieve impressive results in complex tasks and has strong robustness, which paves a new way towards AGI. RestGPT and RestBench is publicly available at https://restgpt.github.io/.
研究の動機と目的
- 複雑なユーザー指示を処理するために、LLM と現実世界の RESTful API を接続する動機付け。
- タスク分解と API 選択のための粗・細のオンライン計画フレームワークを開発。
- OpenAPI (OAS) スキーマを用いてパラメータを生成し API 応答を解析できる API 実行エージェンを設計。
- 実世界のシナリオを備えた人間注釈付きベンチマーク RestBench を作成し、LLM による RESTful API の使用を評価。
提案手法
- 3つのモジュールが中核を形成する: Planner、API Selector、Executor、それぞれを LLM をプロンプトで駆動。
- NL サブタスク計画と API 選択を交互に行う、粗・細のオンライン計画ループを反復的に適用。
- API 実行は Caller が API ドキュメントから正しいパラメータを生成し、Response Parser が OAS スキーマを用いて解析コードを生成する。
- OAS/OpenAPI 仕様の一部を専門的なプロンプトで読み取り、限られた文脈内で API の理解と応答解析を管理。
- 実行中、応答スキーマから Python コードを生成して JSON 結果を解析し、解析失敗時にはフォールバックのプロンプトを使用。

実験結果
リサーチクエスチョン
- RQ1RestGPT は複雑なユーザー指示を複数の RESTful API 呼び出しを組み合わせて解決できるか?
- RQ2粗・細のオンライン計画アプローチは、ベースラインと比べて API の理解・計画・実行を改善するか?
- RQ3多くの RESTful エンドポイントを使用する際に、実世界の API の変動性とノイズに対して RestGPT はどれくらい頑健か?
- RQ4異なるベース LLM が RestGPT の計画、API 選択、解析能力にどのような影響を与えるか?
主な発見
- RestGPT は RestBench の二つの実世界シナリオ(TMDB および Spotify)でベースラインを上回る。
- TMDB では RestGPT が 75.0% の成功率と 79.0% の正解パス率を達成し、解法長の Δ は +0.55。
- Spotify では RestGPT が 72.7% の成功率と 74.5% の正解パス率を達成し、解法長の Δ は +0.25。
- アブレーションから、プランナーとスキーマベースのパーサの双方が性能に寄与しており、特に計画が重要であることが示された。
- RestGPT はタスクの複雑さが増し、API の数が増えるにつれて強い性能を維持し、拡張性を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。