[논문 리뷰] Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents
논문은 TEPO를 도입합니다. 엔트로피 감소를 LLM 에이전트의 도구 사용 감독으로 삼아, 희소 및 밀집 보상 설계를 통해 도구 호출을 감소시키거나 성능을 향상시킵니다.
Tool-using agents based on Large Language Models (LLMs) excel in tasks such as mathematical reasoning and multi-hop question answering. However, in long trajectories, agents often trigger excessive and low-quality tool calls, increasing latency and degrading inference performance, making managing tool-use behavior challenging. In this work, we conduct entropy-based pilot experiments and observe a strong positive correlation between entropy reduction and high-quality tool calls. Building on this finding, we propose using entropy reduction as a supervisory signal and design two reward strategies to address the differing needs of optimizing tool-use behavior. Sparse outcome rewards provide coarse, trajectory-level guidance to improve efficiency, while dense process rewards offer fine-grained supervision to enhance performance. Experiments across diverse domains show that both reward designs improve tool-use behavior: the former reduces tool calls by 72.07% compared to the average of baselines, while the latter improves performance by 22.27%. These results position entropy reduction as a key mechanism for enhancing tool-use behavior, enabling agents to be more adaptive in real-world applications.
연구 동기 및 목표
- 도구 호출을 엔트로피 감소와 연결함으로써 장기적 추론에서 LLM 에이전트의 도구 사용 행동을 보다 향상시키려는 동기를 부여한다.
- 도메인 간 도구 호출 품질의 고유하고 모델 비의존적 신호로서 엔트로피 역학을 조사한다.
- 도구 사용의 효율성과/또는 성능을 최적화하기 위한 두 가지 보상 설계(희소 및 밀집)를 제안한다.
- 엔트로피 감소 신호가 태스크 특화 수작업 규칙 없이도 RL 기반 도구 사용을 안내할 수 있음을 입증한다.
제안 방법
- 에이전트와 도구 실행기 간의 반복적 상호작용으로 도구 강화 생성 형식을 형식화한다.
- 도구 호출 후 불확실성의 변화를 정량화하기 위해 델타 세그먼트 엔트로피를 ΔHk = H(rk) − H(rk−1)로 정의한다.
- TEPO 두 가지 보상 체계를 제안한다: (1) 엔트로피 감소 도구 호출의 비율에 따라 최종 태스크 보상을 조정하는 희소 결과 보상, (2) 엔트로피를 감소시킬 때 보너스를 주는 밀집 프로세스 보상.
- 토큰 수준 GRPO를 재구성하여 생성된 토큰에 보상을 귀속시키고 도구 호출 이전의 추론 세그먼트에 도구 수준의 이점을 전파한다.
- 수학적 추론, 지식 집약적 추론, 심층 정보 검색 등 다양한 도메인에서 SFT 후 RL 학습을 사용하여 평가하며, 베이스 모델로 Qwen2.5와 Llama3.1을 사용한다.

실험 결과
연구 질문
- RQ1장기적 LLM 추론에서 엔트로피 감소가 도구 호출 품질의 가볍고 모델에 의존하지 않는 신호로 작용할 수 있는가?
- RQ2두 가지 보상 설계(희소 결과 보상 vs. 밀집 프로세스 보상)가 도구 사용 효율성 및/또는 추론 성능을 효과적으로 향상시키는가?
- RQ3TEPO가 모델 크기와 도메인에 따라 어떻게 확장되며, 엔트로피 기반 감독은 기존 프로세스 보상 RL 방법과 어떻게 비교되는가?
- RQ4실용적 도구 보강 추론 작업에서 엔트로피 역학과 고품질 도구 호출 간의 관계는 무엇인가?
주요 결과
- 다양한 도메인과 모델에서 엔트로피 기반 파일럿 연구에서 고품질 도구 호출은 엔트로피 감소(음의 ΔHk)와 연관된다.
- TEPO_sparse는 최종 성능이 유사한 수준으로 도구 호출을 72.07% 감소시켜 효율성을 강조한다.
- TEPO_dense는 추론 성능을 향상시키며, 미세한 엔트로피 감소 감독을 제공함으로써 기준선 대비 평균 22.27%의 이익을 보인다.
- 두 TEPO 변형은 추론 태스크와 심층 검색 태스크에서 여러 기준선보다 우수하여 도메인 전반에 걸친 강건성을 보여준다.
- 엔트로피 감소는 태스크 특화 수작업 규칙 없이 도구 사용을 안내하는 효과적인 감독 신호로 작용한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.