Skip to main content
QUICK REVIEW

[論文レビュー] Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents

Zeping Li, Hongru Wang|arXiv (Cornell University)|Feb 2, 2026
Topic Modeling被引用数 0
ひとこと要約

本論文はTEPOを提案する。エントロピー低減をツール使用の監督信号とする設計で、疎探索報酬と密集報酬を用意し、ツール呼び出しを抑制したり性能を向上させたりする。

ABSTRACT

Tool-using agents based on Large Language Models (LLMs) excel in tasks such as mathematical reasoning and multi-hop question answering. However, in long trajectories, agents often trigger excessive and low-quality tool calls, increasing latency and degrading inference performance, making managing tool-use behavior challenging. In this work, we conduct entropy-based pilot experiments and observe a strong positive correlation between entropy reduction and high-quality tool calls. Building on this finding, we propose using entropy reduction as a supervisory signal and design two reward strategies to address the differing needs of optimizing tool-use behavior. Sparse outcome rewards provide coarse, trajectory-level guidance to improve efficiency, while dense process rewards offer fine-grained supervision to enhance performance. Experiments across diverse domains show that both reward designs improve tool-use behavior: the former reduces tool calls by 72.07% compared to the average of baselines, while the latter improves performance by 22.27%. These results position entropy reduction as a key mechanism for enhancing tool-use behavior, enabling agents to be more adaptive in real-world applications.

研究の動機と目的

  • 長期的なLLMエージェント推論におけるツール呼び出しとエントロピー低減を結びつけ、より良いツール使用行動を促す。
  • ドメイン横断で、ツール呼び出しの品質の内在信号としてエントロピー動態をモデル非依存かつ内在的な指標として調査する。
  • ツール使用の効率と/または性能を最適化するための2つの報酬設計(疎・密)を提案する。
  • エントロピー低減信号がタスク固有の手作業ルールなしでRLベースのツール使用を導くことができることを示す。

提案手法

  • ツールを用いた生成をエージェントとツール実行者との反復的相互作用として形式化する。
  • Δセグメントエントロピーを定義: ΔHk = H(rk) − H(rk−1) を用いてツール呼び出し後の不確実性の変化を定量化する。
  • TEPOを2つの報酬スキームと共に提案する:(1) 疎な成果報酬はエントロピー低減ツール呼び出しの割合により最終タスク報酬を調整、(2) 密な処理報酬はエントロピーを低減させるときにボーナスを与える。
  • トークンレベルのGRPOを再定式化し、生成トークンに報酬を帰属させ、ツールレベルの利得をツール呼び出し前の推論セグメントへ伝播させる。
  • SFTに続くRLトレーニングを用いて多様なドメイン(数理推論、知識集約推論、深部情報探索)を評価し、ベースモデルとしてQwen2.5とLlama3.1を使用する。
Figure 1: Changes in entropy reflect shifts in uncertainty within the agent. High-quality tool calls help the model reduce uncertainty, as indicated by a decrease in entropy.
Figure 1: Changes in entropy reflect shifts in uncertainty within the agent. High-quality tool calls help the model reduce uncertainty, as indicated by a decrease in entropy.

実験結果

リサーチクエスチョン

  • RQ1エントロピー低減は長期的なLLM推論におけるツール呼び出し品質の軽量でモデル非依存な信号になりえるか。
  • RQ22つの報酬設計(疎結果報酬 vs. 密処理報酬)はツール使用の効率と/または推論性能を効果的に向上させるか。
  • RQ3TEPOはモデルサイズとドメインを横断してどの程度スケールするか、エントロピーに基づく監督は既存のプロセス報酬RL手法と比較してどうか。
  • RQ4実践的なツール拡張推論タスクにおけるエントロピー動態と高品質なツール呼び出しとの関係はどうなるか。

主な発見

  • エントロピー低減を伴う複数のドメイン・モデルにおいて、高品質なツール呼び出しは負のΔHk(エントロピー低下)と関連している。
  • TEPO_sparseはツール呼び出しを72.07%抑制しつつ最終性能は同等で、効率を重視。
  • TEPO_denseは推論性能を改善し、基準と比較してエントロピー低減監督を細粒度で与えることで平均22.27%の向上を示す。
  • TEPOの両バリアントは複数のベースラインを推論タスクや深部探索タスクで上回り、ドメインを跨る頑健性を示す。
  • エントロピー低減は、タスク固有の手作業ルールなしでツール使用を効果的に導く監督信号として機能する。
Figure 2: The overall framework of $\text{TEPO}_{\text{sparse}}$ and $\text{TEPO}_{\text{dense}}$ . In the sparse reward design, the reward and advantage are calculated and then uniformly assigned to each token within the trajectory (same $A_{i,t}$ for all tokens). In contrast, the dense reward desi
Figure 2: The overall framework of $\text{TEPO}_{\text{sparse}}$ and $\text{TEPO}_{\text{dense}}$ . In the sparse reward design, the reward and advantage are calculated and then uniformly assigned to each token within the trajectory (same $A_{i,t}$ for all tokens). In contrast, the dense reward desi

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。