QUICK REVIEW

[논문 리뷰] Schema First Tool APIs for LLM Agents: A Controlled Study of Tool Misuse, Recovery, and Budgeted Performance

Akshey Sigdel, Rista Baral|arXiv (Cornell University)|2026. 03. 12.

Software Engineering Research인용 수 0

한 줄 요약

이 논문은 LLM 에이전트의 도구 인터페이스에 대해 자유형 산문, JSON 스키마, 구조화 진단이 포함된 JSON 스키마를 비교하는 통제된 연구를 수행하여, 스키마 형식이 인터페이스 오용을 줄이지만 결정론적 샌드박스에서 엄격한 예산 하에는 의미적 작업 성공을 개선하지 못함을 보인다.

ABSTRACT

Tool use has become central to modern LLM agents, yet interface design is rarely isolated as an experimental variable. This paper studies whether schema based tool contracts and structured validation diagnostics improve reliability under strict interaction budgets. We evaluate three conditions that preserve identical tool semantics and information content: free form documentation, JSON Schema specifications, and JSON Schema with structured diagnostics. We implement a deterministic software engineering sandbox with logs, metrics, configurations, and repository tasks, and evaluate a fully crossed pilot with one open local model, three seeds, three interface conditions, and four budgets. We report end task success, interface misuse, execution failures, semantic misuse, recovery behavior, and overhead. In this pilot, success remains zero across conditions, while schema conditions reduce interface misuse but not semantic misuse. The evidence supports a precise interpretation that interface formalization improves contract adherence, but semantic action quality and timeout sensitive tasks remain dominant bottlenecks under constrained local inference.

연구 동기 및 목표

엄격한 상호작용 예산 하에서 도구 인터페이스 표현과 유효성 검증 피드백이 LLM 에이전트의 신뢰성에 어떤 영향을 미치는지 분리 분석한다.
도구 시맨틱스를 일정하게 유지한 채 세 가지 인터페이스 조건(자유형 산문, JSON 스키마, 진단이 포함된 JSON 스키마)을 비교한다.
스키마의 엄격성이 인터페이스 오용, 복구, 의미적 오용, 토큰 오버헤드에 미치는 영향을 정량화한다.
인터페이스 주도 신뢰성 진단을 위한 재현 가능한 샌드박스와 평가 프로토콜을 제공한다.
인터페이스 엄격성이 어디에서 도움이 되고 의미 계획의 한계가 여전히 지배적인지 특징화한다.

제안 방법

로그, 지표, 구성, 그리고 작업 저장소를 포함한 결정론적 소프트웨어 엔지니어링 샌드박스를 개발한다.
도구의 표준 계약을 정의하고 동일한 계약으로 산문과 JSON 스키마 표현을 모두 생성한다.
고정된 예산 하에서 명시적 오류 피드백 채널을 가진 에이전트를 운영하고 인터페이스 유효성/실행 유효성을 구분한다.
인터페이스 효과를 A(자유형), B(JSON 스키마), C(진단 포함 JSON 스키마) 간 비교로 분리한다.
예산 및 시드에 따라 작업 성공, 인터페이스 오용, 실행 실패, 회복, 의미 오용 및 오버헤드를 측정한다.

실험 결과

연구 질문

RQ1스키마-우선 명세가 자유형 문서화에 비해 인터페이스 오용을 감소시키는가?
RQ2구조화된 진단이 잘못된 호출 이후 회복을 스키마 단독 대비 향상시키는가?
RQ3인터페이스 조건에 따라 예산이 최종 작업 성공에 어떻게 영향을 미치는가?
RQ4스키마 기반 인터페이스가 의미적 오용에 영향을 주는가, 아니면 오직 인터페이스 위반에만 영향을 주는가?
RQ5제한된 예산 하에서 스키마 기반 인터페이스를 사용하는 비용(토큰 오버헤드)은 무엇인가?

주요 결과

스키마-우선 인터페이스는 산문 문서화에 비해 인터페이스 오용을 줄인다.
구조화된 진단은 잘못된 호출 이후 회복 확률을 높이지만 의미적 오용은 줄이지 못한다.
파일럿에서 모든 조건과 예산에서 최종 작업 성공은 0으로 나타나며, 이는 제약 하에서 의미적 행동 품질과 타임아웃 민감도가 지배적임을 시사한다.
실행 실패는 주로 산문 조건에서 발생하고, 스키마 조건은 파일럿에서 실행 실패가 0으로 나타난다.
예산 증가가 오용 건수를 증가시키고 성공 이익으로 이어지지 않으며, 지역 추론 하에서 회복 정책 및 계획의 한계가 지배적임을 시사한다.
본 연구는 재현 가능한 샌드박스와 사전 등록된 프로토콜을 갖춘 방법론적 진단 기여를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.