QUICK REVIEW

[論文レビュー] Schema First Tool APIs for LLM Agents: A Controlled Study of Tool Misuse, Recovery, and Budgeted Performance

Akshey Sigdel, Rista Baral|arXiv (Cornell University)|Mar 12, 2026

Software Engineering Research被引用数 0

ひとこと要約

論文は、自由形式の散文、JSON Schema、そして構造化診断を備えたJSON Schemaを比較する制御実験を実施し、LLMエージェントのツールインターフェースにおいてスキーマ形式がインターフェースの誤用を減少させる一方、決定論的サンドボックスの厳密な予算下では意味論的タスク成功を改善しないことを示しています。

ABSTRACT

Tool use has become central to modern LLM agents, yet interface design is rarely isolated as an experimental variable. This paper studies whether schema based tool contracts and structured validation diagnostics improve reliability under strict interaction budgets. We evaluate three conditions that preserve identical tool semantics and information content: free form documentation, JSON Schema specifications, and JSON Schema with structured diagnostics. We implement a deterministic software engineering sandbox with logs, metrics, configurations, and repository tasks, and evaluate a fully crossed pilot with one open local model, three seeds, three interface conditions, and four budgets. We report end task success, interface misuse, execution failures, semantic misuse, recovery behavior, and overhead. In this pilot, success remains zero across conditions, while schema conditions reduce interface misuse but not semantic misuse. The evidence supports a precise interpretation that interface formalization improves contract adherence, but semantic action quality and timeout sensitive tasks remain dominant bottlenecks under constrained local inference.

研究の動機と目的

ツールインターフェースの表現と検証フィードバックが厳格なインタラクション予算下でLLMエージェントの信頼性に与える影響を分離する。
ツール意味論を一定に保ちつつ、三つのインターフェース条件（自由形式の散文、JSON Schema、診断付きJSON Schema）を比較する。
スキーマの厳密さがインターフェース誤用、回復、意味論的誤用、トークンオーバーヘッドに与える影響を定量化する。
インターフェース駆動の信頼性を診断する再現性のあるサンドボックスと評価プロトコルを提供する。
インターフェースの厳密さが役立つ領域と、意味論的計画の制約が依然として支配的になる領域を特徴づける。

提案手法

ログ、指標、構成を備えた決定論的なソフトウェア工学サンドボックスを開発する。
ツールのカノニカル契約を定義し、同一契約から散文とJSON Schema表現を生成する。
固定予算の下でエージェントを運用し、明示的なエラーフィードバックチャネルを設け、インターフェースの有効性と実行の有効性を区別する。
三つの条件A（自由形式）、B（JSON Schema）、C（診断付きJSON Schema）を比較してインターフェース効果を分離する。
予算とシードごとにタスク成功、インターフェース誤用、実行障害、回復、意味論的誤用、オーバーヘッドを測定する。

実験結果

リサーチクエスチョン

RQ1スキーマ先行の仕様は、自由形式の文書化と比較してインターフェース誤用を減らすか。
RQ2構造化診断は無効な呼び出し後の回復を向上させるか、それともスキーマだけでは改善しないのか。
RQ3エンドタスクの成功は、インターフェース条件間で予算とともにどう変化するか。
RQ4スキーマベースのインターフェースは意味論的な誤用に影響を与えるか、それともインターフェース違反のみに影響するのか。
RQ5制約のある予算下でスキーマベースのインターフェースを使用する際のコスト（トークンオーバーヘッド）はどうか。

主な発見

スキーマ先行のインターフェースは、散文ドキュメントと比較してインターフェース誤用を減らす。
構造化診断は無効な呼び出し後の回復確率を高める一方、意味論的誤用を減らさない。
パイロット実験では、すべての条件と予算でエンドタスクの成功はゼロであり、意味論的行動の質とタイムアウト感度が制約下で支配的であることを示す。
実行障害は主に散文条件で発生する一方、スキーマ条件ではパイロットでゼロの実行障害を示す。
予算を増やすと誤用のカウントが増え、成功の獲得には結びつかない。これは回復方針と計画が局所推論下で支配的になることを示唆する。
この研究は、再現性のあるサンドボックスと事前登録プロトコルを備えた方法論的・診断的貢献を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。