[論文レビュー] Evolution-Guided Policy Gradient in Reinforcement Learning
ERLは進化的アルゴリズムとディープRLをハイブリッド化して多様な経験と勾配ベースの学習を提供し、DRLまたはEAだけよりもサンプル効率を高め、連続制御タスクでの性能を向上させる。
Deep Reinforcement Learning (DRL) algorithms have been successfully applied to a range of challenging control tasks. However, these methods typically suffer from three core difficulties: temporal credit assignment with sparse rewards, lack of effective exploration, and brittle convergence properties that are extremely sensitive to hyperparameters. Collectively, these challenges severely limit the applicability of these approaches to real-world problems. Evolutionary Algorithms (EAs), a class of black box optimization techniques inspired by natural evolution, are well suited to address each of these three challenges. However, EAs typically suffer from high sample complexity and struggle to solve problems that require optimization of a large number of parameters. In this paper, we introduce Evolutionary Reinforcement Learning (ERL), a hybrid algorithm that leverages the population of an EA to provide diversified data to train an RL agent, and reinserts the RL agent into the EA population periodically to inject gradient information into the EA. ERL inherits EA's ability of temporal credit assignment with a fitness metric, effective exploration with a diverse set of policies, and stability of a population-based approach and complements it with off-policy DRL's ability to leverage gradients for higher sample efficiency and faster learning. Experiments in a range of challenging continuous control benchmarks demonstrate that ERL significantly outperforms prior DRL and EA methods.
研究の動機と目的
- 強化学習における sparse rewards と長い時間 horizon に対処する。
- RLエージェントのための多様な経験を生成するために集団多様性を活用する。
- 進化ループへ勾配ベースの学習を注入し、ロバスト性を向上させるために同期を図る。
- 集団ベースのアプローチを通じて安定性を維持しつつサンプル効率を改善する。
提案手法
- アクター網の集団を維持し、ターゲットネットワークを持つ別個のRLアクタークリティック(DDPG)を用意する。
- エピソード全体の適応度を用いてアクターを選択・進化させ、次世代を形成する際に交叉と突然変異を適用する。
- 集団全体の経験を共有再生バッファに保存し、クリティックとRLアクターを勾配降下で訓練する。
- 最適なRLアクターを定期的に進化集団へ同期させ、進化を導く(ラマルキアン転送)。
- 行動空間でのRLアクターの探索にはOrnstein-Uhlenbeckノイズを用い、集団のパラメータ空間探索を補完する。
- DDPGを軸としたERLの詳細なアルゴリズムとハイパーパラメータを提供し、再生バッファの再利用と周期的同期に焦点を当てる。
実験結果
リサーチクエスチョン
- RQ1ERL(Evolutionary Reinforcement Learning)は、標準的なDRL(DDPG、PPO)およびEAを連続制御タスクで上回るか?
- RQ2選択演算子と集団ベースの多様性がERLの性能にどれほど重要か?
- RQ3RLアクターをEA集団へ同期させることが学習の安定性とサンプル効率に与える影響は?
- RQ4ERLは純粋な勾配法が苦手とするスパースまたは deceptive reward の環境を克服できるか?
主な発見
| 環境 | エリート | 選択 | 廃棄 |
|---|---|---|---|
| Half-Cheetah | 83.8±9.3% | 14.3±9.1% | 2.3±2.5% |
| Swimmer | 4.0±2.8% | 20.3±18.1% | 76.0±20.4% |
| Reacher | 68.3±9.9% | 19.7±6.9% | 9.0±6.9% |
| Ant | 66.7±1.7% | 15.0±1.4% | 18.0±0.8% |
| Hopper | 28.7±8.5% | 33.7±4.1% | 37.7±4.5% |
| Walker-2d | 38.5±1.5% | 39.0±1.9% | 22.5±0.5% |
- ERLは6つの Mujoco 連続制御タスクで従来の DRL および EA 手法を顕著に上回る。
- AntのベンチマークでDDPGが通常失敗する領域を学習し、一般的にはEAより上回る(Swimmerを除き、両者は類似する)。
- アブレーション実験により選択演算子を除去すると性能が急激に低下し、堅牢な学習を維持する上でその重要性が示される。
- RLアクターを集団へ同期することは建設的な指針を提供し安定性を改善する。ERLは平均してDDPGより約3%程度のウォールクロック時間を超過する。
- ERLは共有再生バッファを活用して、経験から集団全体で情報を最大化し、サンプル効率を高める。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。