QUICK REVIEW

[논문 리뷰] Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic

Shuo Liu, Tianle Chen|arXiv (Cornell University)|2026. 01. 29.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

이 논문은 두 개의 다중 에이전트 행동-가치 학습(MAAC) 접근법인 CoLLM-CC(중앙 집중형 크리틱)와 CoLLM-DC(분산 크리틱)를 도입하여 비집중화된 LLM 협업을 최적화하고, 몬테카를로 방법과 비교하여 글쓰기, 코딩, 게임 과제에서의 성능 차이를 분석한다. 일반적으로 CoLLM-CC는 긴 시계열 또는 희소 보상 과제에서 타 방법보다 우수하고, CoLLM-DC는 촘촘하고 짧은 시계열 설정에서 경쟁력 있는 결과를 보인다.

ABSTRACT

Recent work has explored optimizing LLM collaboration through Multi-Agent Reinforcement Learning (MARL). However, most MARL fine-tuning approaches rely on predefined execution protocols, which often require centralized execution. Decentralized LLM collaboration is more appealing in practice, as agents can run inference in parallel with flexible deployments. Also, current approaches use Monte Carlo methods for fine-tuning, which suffer from high variance and thus require more samples to train effectively. Actor-critic methods are prevalent in MARL for dealing with these issues, so we developed Multi-Agent Actor-Critic (MAAC) methods to optimize decentralized LLM collaboration. In this paper, we analyze when and why these MAAC methods are beneficial. We propose 2 MAAC approaches, extbf{CoLLM-CC} with a extbf{C}entralized extbf{C}ritic and extbf{CoLLM-DC} with extbf{D}ecentralized extbf{C}ritics. Our experiments across writing, coding, and game-playing domains show that Monte Carlo methods and CoLLM-DC can achieve performance comparable to CoLLM-CC in short-horizon and dense-reward settings. However, they both underperform CoLLM-CC on long-horizon or sparse-reward tasks, where Monte Carlo methods require substantially more samples and CoLLM-DC struggles to converge. Our code is available at https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.6.

연구 동기 및 목표

여러 LLM 에이전트 간의 중앙 실행 제약 없이 비분산 협업을 가능하게 하고 동기를 부여한다.
다중 에이전트 행동-가치 학습 방법이 몬테카를로 기반 베이스라인에 비해 파인튜닝을 개선하는 시기와 이유를 분석한다.
MAAC 기반 프레임워크 두 가지(CoLLM-CC(중앙 집중형 크리틱)와 CoLLM-DC(분산 크리틱))를 제안한다.
글쓰기, 코딩, 게임 플레이 영역에서 성능을 평가하여 강점과 한계를 확인한다.

제안 방법

비 RL 파인튜닝을 위한 비집중 LLM 협업을 최적화하기 위한 MAAC 방법을 개발한다.
joint history 값을 추정하는 중앙 집중형 크리틱을 가진 CoLLM-CC를 도입한다.
개별 이력 값을 추정하는 분산 크리틱을 가진 CoLLM-DC를 도입한다.
긴 대화 이력을 처리하기 위해 KV 캐시를 통한 트랜스포머 기반 이력 표현을 사용한다.
매크로 액션(전체 응답)에 대한 시퀀스 수준의 확률을 계산하기 위해 Teacher-Forced(TF) 순방향 패스를 적용한다.
MAAC 접근법의 이론적 분석을 제공하고 편향/ 분산 고려사항 및 안정성에 대해 다룬다.

실험 결과

연구 질문

RQ1분산된 LLM 협업에서 MAAC 방법이 몬테카를로 기반 파인튜닝보다 우수한 조건은 무엇인가?
RQ2중앙 집중식 크리틱과 분산 크리틱이 학습 효율성, 수렴성 및 짧은 시계열 대 긴 시계열 과제에서의 성능에 어떤 영향을 미치는가?
RQ3다양한 도메인에서 CoLLM-CC와 CoLLM-DC의 샘플 효율성, 수렴성 및 확장성 간의 trade-off는 어떻게 되는가?
RQ4CoLLM-CC와 CoLLM-DC가 학습 이점이 실현되는 동안에도 분산 실행을 유지하는가?
RQ5이력 표현(KV-캐시)이 학습과 성능에 어떤 영향을 미치는가?

주요 결과

밀집 보상, 짧은 시계열의 글쓰기 과제에서 몬테카를로 방법과 CoLLM-DC가 CoLLM-CC와 비교해 유사한 성능을 보인다.
희소 보상 코딩 과제와 긴 시계열 마인크래프트 과제에서 CoLLM-CC가 MAAC 기반 비교기보다 우수하며, 몬테카를로는 더 많은 샘플을 필요로 하고 CoLLM-DC는 수렴에 실패한다.
과제 전반에 걸쳐 CoLLM-CC가 일관되게 몬테카를로 및 CoLLM-DC보다 우수하며, 특히 긴 시계열 과제에서 두드러진다.
CoLLM-DC는 짧은 시계열의 촘촘한 설정에서 경쟁력 있는 결과를 제시하지만 고정 신호 및 수렴에 어려움을 겪을 수 있다.
TA: 중앙 집중형 크리틱(CoLLM-CC)은 공동 이력 조건화로 인해 어려운 과제에서 더 안정적인 가치 추정을 제공한다.
이 연구는 재현을 위한 GitHub 릴리스의 코드를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.