QUICK REVIEW

[논문 리뷰] Complementary Reinforcement Learning

Dilxat Muhtar, Jiashun Liu|arXiv (Cornell University)|2026. 03. 18.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

보완적 RL은 정책 행위자와 경험 추출기를 공동 진화시켜 증류된 경험을 효율적으로 활용하고, 단일 작업에서 주목할 만한 이득과 다중 작업 설정에서 강건한 이득을 달성합니다. 이는 중앙 집중식 MemoryManager를 갖춘 비동기 프레임워크를 사용하여 진화하는 경험 은행을 유지하고 질의합니다.

ABSTRACT

Reinforcement Learning (RL) has emerged as a powerful paradigm for training LLM-based agents, yet remains limited by low sample efficiency, stemming not only from sparse outcome feedback but also from the agent's inability to leverage prior experience across episodes. While augmenting agents with historical experience offers a promising remedy, existing approaches suffer from a critical weakness: the experience distilled from history is either stored statically or fail to coevolve with the improving actor, causing a progressive misalignment between the experience and the actor's evolving capability that diminishes its utility over the course of training. Inspired by complementary learning systems in neuroscience, we present Complementary RL to achieve seamless co-evolution of an experience extractor and a policy actor within the RL optimization loop. Specifically, the actor is optimized via sparse outcome-based rewards, while the experience extractor is optimized according to whether its distilled experiences demonstrably contribute to the actor's success, thereby evolving its experience management strategy in lockstep with the actor's growing capabilities. Empirically, Complementary RL outperforms outcome-based agentic RL baselines that do not learn from experience, achieving 10% performance improvement in single-task scenarios and exhibits robust scalability in multi-task settings. These results establish Complementary RL as a paradigm for efficient experience-driven agent learning.

연구 동기 및 목표

과거 경험을 활용하여 LLM 기반 에이전트의 RL에서 샘플 비효율성을 해결한다.
정책 행위자와 경험 추출기 간의 폐쇄루프 코에볼루션을 가능하게 한다.
행동자의 진화하는 능력에 맞춰 동적 경험 은행을 유지하고 증류한다.
행동자 업데이트를 차단하지 않으면서 경험 관리의 확장을 가능하게 하는 비동기 학습 프레임워크를 설계한다.

제안 방법

공유된 경험 은행 M을 갖는 행위자 π_theta와 경험 추출기 π_phi를 정식화한다.
π_phi를 통해 궤적에서 경험 m를 증류하고 성공에 대한 기여도에 따라 이진 보상을 부여하며 CISPO 목표로 최적화한다.
GRPO 목표를 사용하여 결과 기반 보상으로 행위자 π_theta를 학습하고, 경험 가이드 롤아웃과 경험-free 롤아웃을 구분하기 위한 split-advantage 스키마를 적용한다.
경험 통합, 검색, 그리고 π_theta와 π_phi의 코에볼루션을 처리하는 중앙 집중식 ExperienceManager를 갖춘 완전한 비동기 학습 프레임워크를 구현한다.
M의 중복성을 줄이기 위한 Merge 연산과 의사결정 지점에서 대상 검색을 강화하는 search_and_ask 도구 같은 메커니즘을 도입한다.

실험 결과

연구 질문

RQ1행위자와 경험 추출기를 함께 코에볼루션시키는 것이 정적 또는 오프라인 경험 기준선보다 학습 효율을 향상시킬 수 있는가?
RQ2행동하는 경험 추출기가 행위자의 증가하는 능력에 지속적으로 맞추려면 어떻게 설계되어야 하는가?
RQ3비동기적이고 중앙 집중식 학습 프레임워크가 경험 관리의 확장을 수행하면서 처리량을 유지하는가?
RQ4공진화와 경험 가이드 검색이 단일 작업과 다중 작업 성능에 어떤 영향을 미치는가?

주요 결과

방법	MiniHack Room	WebShop	ALFWorld	평균
Baseline	0.68	0.81	0.72	0.75
Static Online Exp. (eval w/ exp.)	0.41	0.67	0.69	0.59
Static Online Exp. (eval w/o exp.)	0.39	0.59	0.64	0.54
Exp. Only	0.49	0.37	0.13	0.33
Comp. RL (eval w/ exp.)	0.78	0.87	0.82	0.82
Comp. RL (eval w/o exp.)	0.75	0.84	0.74	0.78

보완적 RL은 네 가지 단일 작업 환경에서 일관되게 기준선보다 우수하며 단일 작업 시나리오에서 약 10%의 이득을 제공합니다.
다중 작업 설정에서 보완적 RL은 견고한 확장성과 개선된 학습 동역학을 보여줍니다.
경험 은행에서의 테스트 시점 검색은 성능에 도움이 되지만, 정적 온라인 경험만으로는 불일치로 인해 기준선보다 저조합니다.
더 큰 경험 추출기는 작업 전반에 걸쳐 평균 약 5%의 성능 향상을 추가로 제공합니다.
자기 증류는 초기 이득을 높일 수 있지만 신중하게 관리하지 않으면 나중에 수렴이 무너질 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.