Skip to main content
QUICK REVIEW

[論文レビュー] Complementary Reinforcement Learning

Dilxat Muhtar, Jiashun Liu|arXiv (Cornell University)|Mar 18, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

Complementary RL は方策アクターと経験抽出機を共進化させ、蒸留された経験を効率的に活用することで、単一タスクで顕著な利得を、マルチタスク設定で堅牢な利得を達成する。非同期フレームワークと、 evolving experience bank を維持・クエリする中央集権型 MemoryManager を用いる。

ABSTRACT

Reinforcement Learning (RL) has emerged as a powerful paradigm for training LLM-based agents, yet remains limited by low sample efficiency, stemming not only from sparse outcome feedback but also from the agent's inability to leverage prior experience across episodes. While augmenting agents with historical experience offers a promising remedy, existing approaches suffer from a critical weakness: the experience distilled from history is either stored statically or fail to coevolve with the improving actor, causing a progressive misalignment between the experience and the actor's evolving capability that diminishes its utility over the course of training. Inspired by complementary learning systems in neuroscience, we present Complementary RL to achieve seamless co-evolution of an experience extractor and a policy actor within the RL optimization loop. Specifically, the actor is optimized via sparse outcome-based rewards, while the experience extractor is optimized according to whether its distilled experiences demonstrably contribute to the actor's success, thereby evolving its experience management strategy in lockstep with the actor's growing capabilities. Empirically, Complementary RL outperforms outcome-based agentic RL baselines that do not learn from experience, achieving 10% performance improvement in single-task scenarios and exhibits robust scalability in multi-task settings. These results establish Complementary RL as a paradigm for efficient experience-driven agent learning.

研究の動機と目的

  • LLM ベースのエージェントにおけるサンプル非効率の問題に対処するため、過去の経験を活用する。
  • ポリシーアクターと経験抽出機のクローズドループ共進化を実現する。
  • アクターの進化する能力に適合するダイナミックな経験バンクを維持・蒸留する。
  • アクターの更新をブロックせず、経験管理をスケールさせる非同期なトレーニングフレームワークを設計する。

提案手法

  • 共有された経験バンク M を持つアクター π_theta と経験抽出機 π_phi を定式化する。
  • π_phi によって軌跡から経験 m を蒸留し、それらの成功への寄与に基づいてバイナリ報酬を割り当て、CISPO 目的で最適化する。
  • GRPO 目的を用いて成果ベースの報酬でアクター π_theta を訓練し、経験誘導ロールアウトと経験フリーなロールアウトを分離する分割利得スキームを採用する。
  • 集中化されたExperienceManager が経験の統合・取得・π_theta と π_phi の共進化を扱う、完全な非同期トレーニングフレームワークを実装する。
  • M の冗長性を減らす Merge 操作のようなメカニズムと、意思決定時点での対象取得を強化する search_and_ask ツールを組み込む。

実験結果

リサーチクエスチョン

  • RQ1共進化するアクターと経験抽出機が、静的またはオフラインの経験ベースと比較して学習効率を改善するか?
  • RQ2進化する経験抽出機は、アクターの成長能力に継続的に適合するように設計すべきか?
  • RQ3非同期・集中型のトレーニングフレームワークは、経験管理を拡張してもスループットを維持できるか?
  • RQ4共進化と経験誘導の取得が、単一タスクとマルチタスクの性能に与える影響は?

主な発見

方法MiniHack RoomWebShopALFWorldAvg.
Baseline0.680.810.720.75
Static Online Exp. (eval w/ exp.)0.410.670.690.59
Static Online Exp. (eval w/o exp.)0.390.590.640.54
Exp. Only0.490.370.130.33
Comp. RL (eval w/ exp.)0.780.870.820.82
Comp. RL (eval w/o exp.)0.750.840.740.78
  • Complementary RL は四つの単一タスク環境で一貫してベースラインを上回り、単一タスクの状況で約 10% の利得をもたらす。
  • マルチタスク設定では、Complementary RL は堅牢なスケーラビリティと学習ダイナミクスの改善を示す。
  • 経験バンクからのテスト時の取得は性能を助けるが、静的オンライン経験だけではミスマッチによりベースラインを下回る。
  • 経験抽出機を大きくすると、タスク全体で平均約 5% の性能向上をさらに促進する。
  • 自己蒸留は初期利得を高めることがあるが、慎重に管理しないと後で崩れる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。