Skip to main content
QUICK REVIEW

[논문 리뷰] When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Subha Ghoshal, Ali Al-Bustami|arXiv (Cornell University)|2026. 01. 06.
Topic Modeling인용 수 0
한 줄 요약

본 논문은 Event-QA와 CMV에서 one-shot 대 plan–execute–replan 도구 활용 추론을 벤치마크하고, GPT-4o와 GPT-4o-mini 간 정확도, 지연시간, 비용의 과업-도구 의존적 트레이드를 강조한다.

ABSTRACT

Modern large language models (LLMs) increasingly rely on inference-time planning and external tools to improve reasoning. We benchmark this behavior on two real-world settings: event-centric question answering over graph-structured knowledge (Event-QA) and persuasive response generation in Reddit ChangeMyView (CMV). Using LangChain and LangGraph, we compare a one-shot baseline against a plan-execute-replan agent equipped with task-specific tools (DBpedia SPARQL/lookup/schema exploration, Wikipedia-focused retrieval, and topical web search). We evaluate on 60 examples each from Event-QA and CMV (3 splits of 20), and report both mean end-to-end latency and per-example token cost estimates. We evaluate GPT-4o and GPT-4o-mini under identical workflows and report accuracy and end-to-end latency. On Event-QA, the best tool-augmented configuration improves accuracy (e.g., 47.5\% $ ightarrow$ 67.5\% for GPT-4o) while increasing latency by orders of magnitude ($\sim$8s $ ightarrow$ $\sim$317s per example). On CMV, one-shot prompting is strongest (e.g., GPT-4o-mini achieves 75\% at $\sim$6s), and planning+search increases latency substantially without consistent gains. However, complex multi-tool orchestration exposes failure modes where the smaller model degrades. Overall, the findings highlight the need for task-specific, cost-aware choices of both model size and agent/tooling complexity.

연구 동기 및 목표

  • 실제 작업에서 추론 시점의 계획과 외부 도구가 one-shot 프롬프트 대비 정확도를 향상시키는 시점을 평가한다.
  • 모델 크기와 도구 구성에 따른 정확도 한 포인트당 지연 시간과 비용을 정량화한다.
  • 모델 크기, 도구 조합, 작업 유형 간의 상호 작용 효과를 평가하여 비용 인식 배치를 안내한다.

제안 방법

  • LangGraph 및 LangChain 도구를 사용하여 세 단계(plan–execute–replan) 에이전을 구현한다.
  • 지식 그래프 위의 Event-QA와 CMV 설득적 응답 생성을 포함한 두 가지 실제 작업을 평가한다.
  • baselines(NoPlanning)과 도구 보강 구성(Wikipedia/DBpedia for Event-QA; CMV를 위한 주제별 웹 검색)을 비교한다.
  • 각 작업당 60개 예제의 세 부분으로 나눠 GPT-4o와 GPT-4o-mini를 사용하여 정확도와 엔드투엔드 지연 시간을 측정한다.
  • 각 분할에 대해 프롬프트와 도구 사용을 조정한 후 최종 보고를 위해 보류한다.
  • 각 구성에 대해 정확도와 예제당 평균 추론 시간을 보고한다.
Figure 1: LLM Reasoning Evaluation Workflow
Figure 1: LLM Reasoning Evaluation Workflow

실험 결과

연구 질문

  • RQ1RQ1: 계획 및 도구 호출을 추가했을 때 one-shot 프롬프트에 비해 작업 정확도가 개선되는 시점은 언제인가?
  • RQ2RQ2: 얻은 정확도 포인트당 주된 지연 시간과 달러 비용은 얼마인가?
  • RQ3RQ3: 다중 도구 파이프라인에서 모델 크기와 도구 조정의 복잡성이 어떻게 상호 작용하는가?

주요 결과

모델최고 정확도최종 정확도평균 추론 시간최적 구성
GPT-4o75% (Split 2)67.5% (Split 2 & 3)~317 secondsDBpedia 도구들 (DBpedia SPARQL, lookup, schema exploration)
GPT-4o-mini70% (Split 1)55% (Split 2 & 3)~84 secondsWikipedia retrieval only (Wikipedia)
GPT-4o NoPlanning65% (Split 1)47.5% (Split 2 & 3)~8 secondsNoPlanning baseline
GPT-4o-mini NoPlanning55% (Split 1)35% (Split 2 & 3)~7 secondsNoPlanning baseline
  • 도구 보강 구성이 Event-QA의 정확도를 one-shot 프례팅보다 향상시키나 지연 시간은 수 배에서 수십 배에 달한다.
  • DBpedia를 활용한 GPT-4o가 최고 수준의 Event-QA 정확도( Split 2에서 75%)를 달성하지만 예제당 약 317초가 소요된다.
  • Wikipedia 검색을 이용한 GPT-4o-mini가 Event-QA에서 ~84초의 예제당 시간을 기록하며 경쟁력이 있다.
  • CMV에서 one-shot 프례팅(특히 GPT-4o-mini)은 낮은 지연 시간(~6초)으로 가장 높은 정확도(~75–85%)를 달성한다.
  • CMV에서 계획 및 다중 도구 조정은 일관된 정확도 향상을 보장하지 못하고 지연 시간을 늘리는 경향이 있으며, 소형 모델의 성능을 저하시킬 수 있다.
  • 전반적으로 배포 시 모델 크기와 도구 구성을 고려한 작업-도구별 비용 인식 선택이 필수적이다.
Figure 2: The two LangGraph approaches evaluated. Left: a one-shot baseline where the LLM answers directly. Right: a plan–execute–replan pipeline where the LLM plans, invokes tools during execution, and then answers or revises the plan.
Figure 2: The two LangGraph approaches evaluated. Left: a one-shot baseline where the LLM answers directly. Right: a plan–execute–replan pipeline where the LLM plans, invokes tools during execution, and then answers or revises the plan.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.