[論文レビュー] Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents
本論文はTEPOを提案する。エントロピー低減をツール使用の監督信号とする設計で、疎探索報酬と密集報酬を用意し、ツール呼び出しを抑制したり性能を向上させたりする。
Tool-using agents based on Large Language Models (LLMs) excel in tasks such as mathematical reasoning and multi-hop question answering. However, in long trajectories, agents often trigger excessive and low-quality tool calls, increasing latency and degrading inference performance, making managing tool-use behavior challenging. In this work, we conduct entropy-based pilot experiments and observe a strong positive correlation between entropy reduction and high-quality tool calls. Building on this finding, we propose using entropy reduction as a supervisory signal and design two reward strategies to address the differing needs of optimizing tool-use behavior. Sparse outcome rewards provide coarse, trajectory-level guidance to improve efficiency, while dense process rewards offer fine-grained supervision to enhance performance. Experiments across diverse domains show that both reward designs improve tool-use behavior: the former reduces tool calls by 72.07% compared to the average of baselines, while the latter improves performance by 22.27%. These results position entropy reduction as a key mechanism for enhancing tool-use behavior, enabling agents to be more adaptive in real-world applications.
研究の動機と目的
- 長期的なLLMエージェント推論におけるツール呼び出しとエントロピー低減を結びつけ、より良いツール使用行動を促す。
- ドメイン横断で、ツール呼び出しの品質の内在信号としてエントロピー動態をモデル非依存かつ内在的な指標として調査する。
- ツール使用の効率と/または性能を最適化するための2つの報酬設計(疎・密)を提案する。
- エントロピー低減信号がタスク固有の手作業ルールなしでRLベースのツール使用を導くことができることを示す。
提案手法
- ツールを用いた生成をエージェントとツール実行者との反復的相互作用として形式化する。
- Δセグメントエントロピーを定義: ΔHk = H(rk) − H(rk−1) を用いてツール呼び出し後の不確実性の変化を定量化する。
- TEPOを2つの報酬スキームと共に提案する:(1) 疎な成果報酬はエントロピー低減ツール呼び出しの割合により最終タスク報酬を調整、(2) 密な処理報酬はエントロピーを低減させるときにボーナスを与える。
- トークンレベルのGRPOを再定式化し、生成トークンに報酬を帰属させ、ツールレベルの利得をツール呼び出し前の推論セグメントへ伝播させる。
- SFTに続くRLトレーニングを用いて多様なドメイン(数理推論、知識集約推論、深部情報探索)を評価し、ベースモデルとしてQwen2.5とLlama3.1を使用する。

実験結果
リサーチクエスチョン
- RQ1エントロピー低減は長期的なLLM推論におけるツール呼び出し品質の軽量でモデル非依存な信号になりえるか。
- RQ22つの報酬設計(疎結果報酬 vs. 密処理報酬)はツール使用の効率と/または推論性能を効果的に向上させるか。
- RQ3TEPOはモデルサイズとドメインを横断してどの程度スケールするか、エントロピーに基づく監督は既存のプロセス報酬RL手法と比較してどうか。
- RQ4実践的なツール拡張推論タスクにおけるエントロピー動態と高品質なツール呼び出しとの関係はどうなるか。
主な発見
- エントロピー低減を伴う複数のドメイン・モデルにおいて、高品質なツール呼び出しは負のΔHk(エントロピー低下)と関連している。
- TEPO_sparseはツール呼び出しを72.07%抑制しつつ最終性能は同等で、効率を重視。
- TEPO_denseは推論性能を改善し、基準と比較してエントロピー低減監督を細粒度で与えることで平均22.27%の向上を示す。
- TEPOの両バリアントは複数のベースラインを推論タスクや深部探索タスクで上回り、ドメインを跨る頑健性を示す。
- エントロピー低減は、タスク固有の手作業ルールなしでツール使用を効果的に導く監督信号として機能する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。