[論文レビュー] Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation
この論文は、LLMsを使用して自然言語入力をAPI呼び出しに分類し、複数のLLMに渡るAPI分類性能を評価する合成データセットを生成するフレームワークを提案します。GPT-4は試験されたモデルの中でAPI分類タスクの最も高い精度を達成します。
As Large Language Models (LLMs) advance in natural language processing, there is growing interest in leveraging their capabilities to simplify software interactions. In this paper, we propose a novel system that integrates LLMs for both classifying natural language inputs into corresponding API calls and automating the creation of sample datasets tailored to specific API functions. By classifying natural language commands, our system allows users to invoke complex software functionalities through simple inputs, improving interaction efficiency and lowering the barrier to software utilization. Our dataset generation approach also enables the efficient and systematic evaluation of different LLMs in classifying API calls, offering a practical tool for developers or business owners to assess the suitability of LLMs for customized API management. We conduct experiments on several prominent LLMs using generated sample datasets for various API functions. The results show that GPT-4 achieves a high classification accuracy of 0.996, while LLaMA-3-8B performs much worse at 0.759. These findings highlight the potential of LLMs to transform API management and validate the effectiveness of our system in guiding model testing and selection across diverse applications.
研究の動機と目的
- APIインタラクションの自然言語インターフェースを有効化して技術的障壁を下げる動機付け。
- NLプロンプトをAPI呼び出しに分類して実行するエンドツーエンドのシステムを開発。
- API分類タスクのベンチマークとLLM比較のための合成データ生成パイプラインを作成。
- カスタマイズAPI管理のためのモデル適合性を評価する拡張性のある方法論を提供。
提案手法
- 2要素のシステム: (1) NLプロンプトをAPI呼び出しへマッピングするAPI取得/分類パイプラインと定義されたAPI階層; (2) API関数用のラベル付き合成NLプロンプトを生成するデータセット生成パイプライン。
- データセット生成はバッチプロンプティングを使用(バッチあたり100の合成クエリ)で多様でラベル付きプロンプトをJSONで作成し、99.9%の精度で人手ラベル検証を実施。
- 複数のLLM(GPT-4、GPT-4o-mini、GPT-3.5-turbo、LLaMA3-70B、LLaMA3-8B、Gemini-1.5)を用いてクエリをAPIモジュールと機能に分類。
- 指標にはモジュールレベル分類精度(MLC-Acc)と機能レベル分類精度(FLC-Acc)。
- データセットは6つのAPIモジュールをカバー:Calculator、Notes、Weather、Email、Notification、Calendar、加えてRoutes-Not-Existモジュールを追加して無効な呼び出しをテスト。
実験結果
リサーチクエスチョン
- RQ1最先端のLLMは自然言語プロンプトを事前定義されたAPIモジュールと機能にどれくらい正確に分類できるか?
- RQ2モデルサイズとアーキテクチャが多様なAPIモジュールに対するAPI分類性能に与える影響は?
- RQ3合成データ生成はAPI管理タスクの信頼性のあるベンチマークとモデル選択を可能にするか?
- RQ4提案フレームワークは単純なAPIタスクと複雑なAPIタスクの両方でどう機能するか?
- RQ5カスタマイズAPI管理タスクのためにLLMを選択する際の指針は何か?
主な発見
- GPT-4は全体のモジュール/機能分類性能で最高を達成(MLC-Accは約0.99、FLC-Accは報告結果でほぼ0.996)。
- LLaMA-3-70Bも強い性能を示す(モジュールを跨ぐ高いMLC-AccとFLC-Acc)。
- より小さなモデル(例: GPT-4o-mini, LLaMA3-8B)は特により複雑なモジュールで精度が顕著に低下し、モデルサイズがタスク性能に大きく影響。
- データセット生成フレームワークは複数のLLMをAPI分類タスクで迅速かつ自動的にベンチマークでき、ユースケースごとに最適なモデルを特定するのに役立つ。
- 人手検証を伴う高品質な合成データ生成を示し、API分類能力のスケーラブルな評価を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。