QUICK REVIEW

[논문 리뷰] Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents

Zeping Li, Hongru Wang|arXiv (Cornell University)|2026. 02. 02.

Topic Modeling인용 수 0

한 줄 요약

논문은 TEPO를 도입합니다. 엔트로피 감소를 LLM 에이전트의 도구 사용 감독으로 삼아, 희소 및 밀집 보상 설계를 통해 도구 호출을 감소시키거나 성능을 향상시킵니다.

ABSTRACT

Tool-using agents based on Large Language Models (LLMs) excel in tasks such as mathematical reasoning and multi-hop question answering. However, in long trajectories, agents often trigger excessive and low-quality tool calls, increasing latency and degrading inference performance, making managing tool-use behavior challenging. In this work, we conduct entropy-based pilot experiments and observe a strong positive correlation between entropy reduction and high-quality tool calls. Building on this finding, we propose using entropy reduction as a supervisory signal and design two reward strategies to address the differing needs of optimizing tool-use behavior. Sparse outcome rewards provide coarse, trajectory-level guidance to improve efficiency, while dense process rewards offer fine-grained supervision to enhance performance. Experiments across diverse domains show that both reward designs improve tool-use behavior: the former reduces tool calls by 72.07% compared to the average of baselines, while the latter improves performance by 22.27%. These results position entropy reduction as a key mechanism for enhancing tool-use behavior, enabling agents to be more adaptive in real-world applications.

연구 동기 및 목표

도구 호출을 엔트로피 감소와 연결함으로써 장기적 추론에서 LLM 에이전트의 도구 사용 행동을 보다 향상시키려는 동기를 부여한다.
도메인 간 도구 호출 품질의 고유하고 모델 비의존적 신호로서 엔트로피 역학을 조사한다.
도구 사용의 효율성과/또는 성능을 최적화하기 위한 두 가지 보상 설계(희소 및 밀집)를 제안한다.
엔트로피 감소 신호가 태스크 특화 수작업 규칙 없이도 RL 기반 도구 사용을 안내할 수 있음을 입증한다.

제안 방법

에이전트와 도구 실행기 간의 반복적 상호작용으로 도구 강화 생성 형식을 형식화한다.
도구 호출 후 불확실성의 변화를 정량화하기 위해 델타 세그먼트 엔트로피를 ΔHk = H(rk) − H(rk−1)로 정의한다.
TEPO 두 가지 보상 체계를 제안한다: (1) 엔트로피 감소 도구 호출의 비율에 따라 최종 태스크 보상을 조정하는 희소 결과 보상, (2) 엔트로피를 감소시킬 때 보너스를 주는 밀집 프로세스 보상.
토큰 수준 GRPO를 재구성하여 생성된 토큰에 보상을 귀속시키고 도구 호출 이전의 추론 세그먼트에 도구 수준의 이점을 전파한다.
수학적 추론, 지식 집약적 추론, 심층 정보 검색 등 다양한 도메인에서 SFT 후 RL 학습을 사용하여 평가하며, 베이스 모델로 Qwen2.5와 Llama3.1을 사용한다.

Figure 1: Changes in entropy reflect shifts in uncertainty within the agent. High-quality tool calls help the model reduce uncertainty, as indicated by a decrease in entropy.

실험 결과

연구 질문

RQ1장기적 LLM 추론에서 엔트로피 감소가 도구 호출 품질의 가볍고 모델에 의존하지 않는 신호로 작용할 수 있는가?
RQ2두 가지 보상 설계(희소 결과 보상 vs. 밀집 프로세스 보상)가 도구 사용 효율성 및/또는 추론 성능을 효과적으로 향상시키는가?
RQ3TEPO가 모델 크기와 도메인에 따라 어떻게 확장되며, 엔트로피 기반 감독은 기존 프로세스 보상 RL 방법과 어떻게 비교되는가?
RQ4실용적 도구 보강 추론 작업에서 엔트로피 역학과 고품질 도구 호출 간의 관계는 무엇인가?

주요 결과

다양한 도메인과 모델에서 엔트로피 기반 파일럿 연구에서 고품질 도구 호출은 엔트로피 감소(음의 ΔHk)와 연관된다.
TEPO_sparse는 최종 성능이 유사한 수준으로 도구 호출을 72.07% 감소시켜 효율성을 강조한다.
TEPO_dense는 추론 성능을 향상시키며, 미세한 엔트로피 감소 감독을 제공함으로써 기준선 대비 평균 22.27%의 이익을 보인다.
두 TEPO 변형은 추론 태스크와 심층 검색 태스크에서 여러 기준선보다 우수하여 도메인 전반에 걸친 강건성을 보여준다.
엔트로피 감소는 태스크 특화 수작업 규칙 없이 도구 사용을 안내하는 효과적인 감독 신호로 작용한다.

Figure 2: The overall framework of $\text{TEPO}_{\text{sparse}}$ and $\text{TEPO}_{\text{dense}}$ . In the sparse reward design, the reward and advantage are calculated and then uniformly assigned to each token within the trajectory (same $A_{i,t}$ for all tokens). In contrast, the dense reward desi

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.