[논문 리뷰] When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark
본 논문은 Event-QA와 CMV에서 one-shot 대 plan–execute–replan 도구 활용 추론을 벤치마크하고, GPT-4o와 GPT-4o-mini 간 정확도, 지연시간, 비용의 과업-도구 의존적 트레이드를 강조한다.
Modern large language models (LLMs) increasingly rely on inference-time planning and external tools to improve reasoning. We benchmark this behavior on two real-world settings: event-centric question answering over graph-structured knowledge (Event-QA) and persuasive response generation in Reddit ChangeMyView (CMV). Using LangChain and LangGraph, we compare a one-shot baseline against a plan-execute-replan agent equipped with task-specific tools (DBpedia SPARQL/lookup/schema exploration, Wikipedia-focused retrieval, and topical web search). We evaluate on 60 examples each from Event-QA and CMV (3 splits of 20), and report both mean end-to-end latency and per-example token cost estimates. We evaluate GPT-4o and GPT-4o-mini under identical workflows and report accuracy and end-to-end latency. On Event-QA, the best tool-augmented configuration improves accuracy (e.g., 47.5\% $ ightarrow$ 67.5\% for GPT-4o) while increasing latency by orders of magnitude ($\sim$8s $ ightarrow$ $\sim$317s per example). On CMV, one-shot prompting is strongest (e.g., GPT-4o-mini achieves 75\% at $\sim$6s), and planning+search increases latency substantially without consistent gains. However, complex multi-tool orchestration exposes failure modes where the smaller model degrades. Overall, the findings highlight the need for task-specific, cost-aware choices of both model size and agent/tooling complexity.
연구 동기 및 목표
- 실제 작업에서 추론 시점의 계획과 외부 도구가 one-shot 프롬프트 대비 정확도를 향상시키는 시점을 평가한다.
- 모델 크기와 도구 구성에 따른 정확도 한 포인트당 지연 시간과 비용을 정량화한다.
- 모델 크기, 도구 조합, 작업 유형 간의 상호 작용 효과를 평가하여 비용 인식 배치를 안내한다.
제안 방법
- LangGraph 및 LangChain 도구를 사용하여 세 단계(plan–execute–replan) 에이전을 구현한다.
- 지식 그래프 위의 Event-QA와 CMV 설득적 응답 생성을 포함한 두 가지 실제 작업을 평가한다.
- baselines(NoPlanning)과 도구 보강 구성(Wikipedia/DBpedia for Event-QA; CMV를 위한 주제별 웹 검색)을 비교한다.
- 각 작업당 60개 예제의 세 부분으로 나눠 GPT-4o와 GPT-4o-mini를 사용하여 정확도와 엔드투엔드 지연 시간을 측정한다.
- 각 분할에 대해 프롬프트와 도구 사용을 조정한 후 최종 보고를 위해 보류한다.
- 각 구성에 대해 정확도와 예제당 평균 추론 시간을 보고한다.

실험 결과
연구 질문
- RQ1RQ1: 계획 및 도구 호출을 추가했을 때 one-shot 프롬프트에 비해 작업 정확도가 개선되는 시점은 언제인가?
- RQ2RQ2: 얻은 정확도 포인트당 주된 지연 시간과 달러 비용은 얼마인가?
- RQ3RQ3: 다중 도구 파이프라인에서 모델 크기와 도구 조정의 복잡성이 어떻게 상호 작용하는가?
주요 결과
| 모델 | 최고 정확도 | 최종 정확도 | 평균 추론 시간 | 최적 구성 |
|---|---|---|---|---|
| GPT-4o | 75% (Split 2) | 67.5% (Split 2 & 3) | ~317 seconds | DBpedia 도구들 (DBpedia SPARQL, lookup, schema exploration) |
| GPT-4o-mini | 70% (Split 1) | 55% (Split 2 & 3) | ~84 seconds | Wikipedia retrieval only (Wikipedia) |
| GPT-4o NoPlanning | 65% (Split 1) | 47.5% (Split 2 & 3) | ~8 seconds | NoPlanning baseline |
| GPT-4o-mini NoPlanning | 55% (Split 1) | 35% (Split 2 & 3) | ~7 seconds | NoPlanning baseline |
- 도구 보강 구성이 Event-QA의 정확도를 one-shot 프례팅보다 향상시키나 지연 시간은 수 배에서 수십 배에 달한다.
- DBpedia를 활용한 GPT-4o가 최고 수준의 Event-QA 정확도( Split 2에서 75%)를 달성하지만 예제당 약 317초가 소요된다.
- Wikipedia 검색을 이용한 GPT-4o-mini가 Event-QA에서 ~84초의 예제당 시간을 기록하며 경쟁력이 있다.
- CMV에서 one-shot 프례팅(특히 GPT-4o-mini)은 낮은 지연 시간(~6초)으로 가장 높은 정확도(~75–85%)를 달성한다.
- CMV에서 계획 및 다중 도구 조정은 일관된 정확도 향상을 보장하지 못하고 지연 시간을 늘리는 경향이 있으며, 소형 모델의 성능을 저하시킬 수 있다.
- 전반적으로 배포 시 모델 크기와 도구 구성을 고려한 작업-도구별 비용 인식 선택이 필수적이다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.