Skip to main content
QUICK REVIEW

[論文レビュー] When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Subha Ghoshal, Ali Al-Bustami|arXiv (Cornell University)|Jan 6, 2026
Topic Modeling被引用数 0
ひとこと要約

本論文はイベントQ Aと ChangeMyView に対するツール有効化推論のワンショットとプラン–実行–再計画を比較し、GPT-4oとGPT-4o-miniの各モデルで、タスク依存・ツール依存の精度・待機時間・コストのトレードオフを明らかにする。

ABSTRACT

Modern large language models (LLMs) increasingly rely on inference-time planning and external tools to improve reasoning. We benchmark this behavior on two real-world settings: event-centric question answering over graph-structured knowledge (Event-QA) and persuasive response generation in Reddit ChangeMyView (CMV). Using LangChain and LangGraph, we compare a one-shot baseline against a plan-execute-replan agent equipped with task-specific tools (DBpedia SPARQL/lookup/schema exploration, Wikipedia-focused retrieval, and topical web search). We evaluate on 60 examples each from Event-QA and CMV (3 splits of 20), and report both mean end-to-end latency and per-example token cost estimates. We evaluate GPT-4o and GPT-4o-mini under identical workflows and report accuracy and end-to-end latency. On Event-QA, the best tool-augmented configuration improves accuracy (e.g., 47.5\% $ ightarrow$ 67.5\% for GPT-4o) while increasing latency by orders of magnitude ($\sim$8s $ ightarrow$ $\sim$317s per example). On CMV, one-shot prompting is strongest (e.g., GPT-4o-mini achieves 75\% at $\sim$6s), and planning+search increases latency substantially without consistent gains. However, complex multi-tool orchestration exposes failure modes where the smaller model degrades. Overall, the findings highlight the need for task-specific, cost-aware choices of both model size and agent/tooling complexity.

研究の動機と目的

  • 推論時の計画と外部ツールが、実世界のタスクにおけるワンショット prompting より精度を改善する状況を評価する。
  • モデルサイズとツール構成ごとの精度ポイントあたりの待機時間とコストを定量化する。
  • モデルサイズ、ツールのオーケストレーション、タスク種別間の相互作用を評価し、コスト意識のある導入指針を提供する。

提案手法

  • LangGraphとLangChainツールを用いた三段階のPlan–Execute–Replanエージェントを実装する。
  • 実世界タスクの二つを評価(知識グラフに対するEvent-QAとCMVにおける説得的応答生成)。
  • ベースライン(NoPlanning)とツール強化構成(Event-QAはWikipedia/DBpedia、CMVはトピックウェブ検索)を比較。
  • 3つの分割で各タスク60例ずつ、GPT-4oとGPT-4o-miniを用いて精度とエンドツーエンドの待機時間を測定。
  • 分割ごとにプロンプトとツールの使用を調整し、最終報告用にホールドアウトする。
  • 各構成について、精度と各例あたりの平均推論時間を報告する。
Figure 1: LLM Reasoning Evaluation Workflow
Figure 1: LLM Reasoning Evaluation Workflow

実験結果

リサーチクエスチョン

  • RQ1RQ1: 計画とツール呼び出しを追加することは、ワンショット prompting に対してタスクの精度を改善するか。
  • RQ2RQ2: 得られる精度ポイントあたりの限界的な待機時間とコストはどの程度か。
  • RQ3RQ3: マルチツールパイプラインにおけるモデルサイズとツールのオーケストレーションの複雑さはどう相互作用するか。

主な発見

ModelBest AccuracyFinal AccuracyAvg. Inference TimeOptimal Configuration
GPT-4o75% (Split 2)67.5% (Split 2 & 3)~317 secondsDBpedia tools (DBpedia SPARQL, lookup, schema exploration)
GPT-4o-mini70% (Split 1)55% (Split 2 & 3)~84 secondsWikipedia retrieval only (Wikipedia)
GPT-4o NoPlanning65% (Split 1)47.5% (Split 2 & 3)~8 secondsNoPlanning baseline
GPT-4o-mini NoPlanning55% (Split 1)35% (Split 2 & 3)~7 secondsNoPlanning baseline
  • ツール有効化構成はEvent-QAの精度をワンショット prompting より改善するが、待機時間は数桁の高速化と比べて大幅に増加する。
  • DBpediaを用いたGPT-4oはEvent-QAの最高精度を達成(Split 2で75%)するが、例あたり約317秒。
  • Wikipedia検索のみを用いたGPT-4o-miniはEvent-QAで約84秒/例と競争力がある。
  • ChangeMyViewでは、ワンショット prompting(特にGPT-4o-mini)が最も高い精度を達成(約75–85%)し、待機時間が低い(約6秒)。
  • CMVにおけるプランニングとマルチツールオーケストレーションは待機時間を増大させる傾向があり、常に精度向上につながらないことがあり、小型モデルの性能を低下させることもある。
  • 全体として、展開時にはタスクとツールの特性に応じたコスト意識を持つ選択が、モデルサイズとツールの複雑さのバランスを取るうえで重要である。
Figure 2: The two LangGraph approaches evaluated. Left: a one-shot baseline where the LLM answers directly. Right: a plan–execute–replan pipeline where the LLM plans, invokes tools during execution, and then answers or revises the plan.
Figure 2: The two LangGraph approaches evaluated. Left: a one-shot baseline where the LLM answers directly. Right: a plan–execute–replan pipeline where the LLM plans, invokes tools during execution, and then answers or revises the plan.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。