Skip to main content
QUICK REVIEW

[论文解读] Schema First Tool APIs for LLM Agents: A Controlled Study of Tool Misuse, Recovery, and Budgeted Performance

Akshey Sigdel, Rista Baral|arXiv (Cornell University)|Mar 12, 2026
Software Engineering Research被引用 0
一句话总结

本论文进行对照研究,比较自由文本叙述、JSON Schema,以及带结构化诊断的JSON Schema在LLM代理工具界面中的表现,结果显示模式化表单可减少界面误用但在严格预算的确定性沙箱中并不提升语义任务成功率。

ABSTRACT

Tool use has become central to modern LLM agents, yet interface design is rarely isolated as an experimental variable. This paper studies whether schema based tool contracts and structured validation diagnostics improve reliability under strict interaction budgets. We evaluate three conditions that preserve identical tool semantics and information content: free form documentation, JSON Schema specifications, and JSON Schema with structured diagnostics. We implement a deterministic software engineering sandbox with logs, metrics, configurations, and repository tasks, and evaluate a fully crossed pilot with one open local model, three seeds, three interface conditions, and four budgets. We report end task success, interface misuse, execution failures, semantic misuse, recovery behavior, and overhead. In this pilot, success remains zero across conditions, while schema conditions reduce interface misuse but not semantic misuse. The evidence supports a precise interpretation that interface formalization improves contract adherence, but semantic action quality and timeout sensitive tasks remain dominant bottlenecks under constrained local inference.

研究动机与目标

  • 分离工具界面表示与验证反馈如何在严格交互预算下影响LLM代理的可靠性。
  • 在保持工具语义不变的前提下比较三种界面条件(自由文本、JSON Schema、带诊断的JSON Schema)。
  • 量化模式化严格性对界面误用、恢复、语义误用和令牌开销的影响。
  • 提供可重复的沙箱与评估协议以诊断界面驱动的可靠性。
  • 描述界面严格性有帮助的地方以及语义规划限制仍然占主导的场景。

提出的方法

  • 开发一个具备日志、指标、配置和任务仓库的确定性软件工程沙箱。
  • 为工具定义规范契约,并从相同契约生成叙述形式与JSON Schema表示。
  • 在固定预算下运行代理,提供明确的错误反馈通道,并将界面有效性与执行有效性区分开来。
  • 通过比较三种条件A(自由文本)、B(JSON Schema)、C(带诊断的JSON Schema)来孤立界面效应。
  • 在各预算与种子下测量任务成功率、界面误用、执行失败、恢复、语义误用和开销。

实验结果

研究问题

  • RQ1相较于自由文本文档,模式优先规范是否能降低界面误用?
  • RQ2结构化诊断是否在无效调用后提高恢复,而非仅靠模式本身?
  • RQ3在不同接口条件下,最终任务成功率如何随预算变化?
  • RQ4模式化接口是否影响语义误用,还是仅影响界面违规?
  • RQ5在受限预算下,使用基于模式的接口的令牌开销有多大?

主要发现

  • 模式优先的界面相对于文本描述可减少界面误用。
  • 结构化诊断在无效调用后的恢复概率提高,但未降低语义误用。
  • 在初步研究中,所有条件与预算下最终任务成功率均为零,表明在受限条件下语义行动质量与超时敏感性占主导。
  • 在自由文本条件下执行失败更为常见,而模式条件在初步研究中显示执行失败为零。
  • 提升预算会增加误用计数,且并未带来成功的提升,表明在本地推理下恢复策略与规划能力受限为主导。
  • 该研究提供方法学层面的诊断性贡献,具可重复的沙箱与预注册协议。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。