[論文レビュー] Collaborative Evolutionary Reinforcement Learning
本稿では、複数のTD3ベースの学習者を、時間の履歴に応じた異なるハイパーパrameterを設定して、共有され進化する集団に統合することで、協調的探索と活用を可能にするスケーラブルなフレームワーク、共同的進化的強化学習(CERL)を提案する。計算リソースを最もパフォーマンスの高い学習者に動的に割り当て、ニューロエボリューションを用いて発生的ポリシーを生成することで、個々の学習者よりも優れた性能を発揮し、すべての個別TD3エージェントが失敗するMuJoCo Humanoidベンチマークを解消し、優れたデータ収集効率とハイパーパrameter感度に対するロバストネスを達成する。
Deep reinforcement learning algorithms have been successfully applied to a range of challenging control tasks. However, these methods typically struggle with achieving effective exploration and are extremely sensitive to the choice of hyperparameters. One reason is that most approaches use a noisy version of their operating policy to explore - thereby limiting the range of exploration. In this paper, we introduce Collaborative Evolutionary Reinforcement Learning (CERL), a scalable framework that comprises a portfolio of policies that simultaneously explore and exploit diverse regions of the solution space. A collection of learners - typically proven algorithms like TD3 - optimize over varying time-horizons leading to this diverse portfolio. All learners contribute to and use a shared replay buffer to achieve greater sample efficiency. Computational resources are dynamically distributed to favor the best learners as a form of online algorithm selection. Neuroevolution binds this entire process to generate a single emergent learner that exceeds the capabilities of any individual learner. Experiments in a range of continuous control benchmarks demonstrate that the emergent learner significantly outperforms its composite learners while remaining overall more sample-efficient - notably solving the Mujoco Humanoid benchmark where all of its composite learners (TD3) fail entirely in isolation.
研究の動機と目的
- 深層強化学習における、効果のない探索とハイパーパramータ感度という継続的な課題に対処すること。
- 多様な解空間の領域にわたる協調的探索を可能にするスケーラブルなフレームワークの開発。
- 動的リソース割り当てによるオンラインアルゴリズム選択を可能にすることで、手動によるハイパーパラメータチューニングへの依存を低減すること。
- ニューロエボリューションを活用して、複数の学習者を1つの発生的ポリシーに統合し、個々のコンponentsを上回る性能を実現すること。
- 特に解きにくい環境(例:Humanoid)において、連続的制御ベンチマークにおけるデータ収集効率とロバストネスの向上。
提案手法
- CERLは、異なる時間の履歴に応じたハイパーパラメータ(例:割引率γ = 0.9, 0.99, 0.997, 0.9995)を有するTD3ベースの学習者のパフォーマンスを統合する。
- すべての学習者が1つのリプレイバッファを共有することで、集団的活用が可能になり、データ収集効率が向上する。
- リソースマネージャーがパフォーマンスに応じて計算リソースを動的に割り当て、リアルタイムで最も優れた学習者に優遇する。
- ニューロエボリューションは並列で実行され、変異と交差を用いて学習者集団全体のポリシー・パラメータを進化させる。
- 進化プロセスが全体のシステムを統合し、すべてのコンポーネントの長所を統合した1つの発生的ポリシーを生成する。
- オンラインアルゴリズム選択のための上位信頼区間(UCB)戦略を用い、学習者の優先順位を動的に調整可能にする。
実験結果
リサーチクエスチョン
- RQ1異なるハイパーパラメータを持つ複数のRL学習者による協調的フレームワークは、連続的制御タスクにおいて個別学習者を上回る性能を発揮できるか?
- RQ2学習者間での動的リソース割り当ては、データ収集効率と収束のロバストネスを向上させられるか?
- RQ3ニューロエボリューションは、複数のRL学習者を1つの優れた発生的ポリシーに効果的に統合できるか?
- RQ4CERLは、個別TD3エージェントが完全に失敗するような困難な探索問題(例:MuJoCo Humanoid)を解けるか?
- RQ5標準的なDRL手法と比較して、CERLはハイパーパラメータチューニングへの感度を低減できるか?
主な発見
- CERLは、すべての個別TD3学習者が孤立して学習すると完全に失敗するMuJoCo Humanoidベンチマークを正常に解消した。
- 4つのベンチマークのうち3つにおいて、CERLはすべての個別TD3ベースの学習者よりもデータ収集効率が高く、優れたデータ効率性を示した。
- ほとんどのタスクにおいて、リソースマネージャーはL2学習者(γ = 0.99)に最も高い計算リソースを割り当てており、これは過去のハイパーパラメータチューニング結果と一致する。
- Swimmerベンチマークでは、CERLがリソースをγがより高いL3およびL4学習者(γ = 0.997および0.9995)に動的にシフトさせ、γ = 0.997および0.9995がγ = 0.99よりも効果的であることを特定した。これは、結果で観察された性能向上と整合的である。
- CERLは手動によるハイパーパラメータチューニングなしで安定したパフォーマンスを発揮し、多様な環境においてハイパーパラメータ選択への感受性が低いことが示された。
- Walker2dのような単純なタスクではCERLは最適なハイパーパラメータ設定よりもデータ収集効率が低いが、最終的には最良の個別学習者と同等のパフォーマンスに到達し、最終的な収束を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。