[論文レビュー] Effective Diversity in Population Based Reinforcement Learning
DvDは決定子ベースの多様性を用いてRL全体の人口ベースの行動多様性を最適化する。タスク非依存の行動埋め込みと決定子ベースの多様性目的を用い、ESとTD3の実装と適応的多様性トレーディングを行う。
Exploration is a key problem in reinforcement learning, since agents can only learn from data they acquire in the environment. With that in mind, maintaining a population of agents is an attractive method, as it allows data be collected with a diverse set of behaviors. This behavioral diversity is often boosted via multi-objective loss functions. However, those approaches typically leverage mean field updates based on pairwise distances, which makes them susceptible to cycling behaviors and increased redundancy. In addition, explicitly boosting diversity often has a detrimental impact on optimizing already fruitful behaviors for rewards. As such, the reward-diversity trade off typically relies on heuristics. Finally, such methods require behavioral representations, often handcrafted and domain specific. In this paper, we introduce an approach to optimize all members of a population simultaneously. Rather than using pairwise distance, we measure the volume of the entire population in a behavioral manifold, defined by task-agnostic behavioral embeddings. In addition, our algorithm Diversity via Determinants (DvD), adapts the degree of diversity during training using online learning techniques. We introduce both evolutionary and gradient-based instantiations of DvD and show they effectively improve exploration without reducing performance when better exploration is not required.
研究の動機と目的
- RLにおける探索を、様々な経験を収集する多様なエージェントの集団を活用して動機付ける。
- ペアワイズ距離ベースの多様性を、振る舞い埋め込み上の決定子ベースの多様性指標に置換する。
- 学習中の報酬と多様性のバランスを取る適応メカニズムを開発(Thompson samplingによる)。
- 実用的な実装を2つ提供(DvD-ESとDvD-TD3)、探索と性能の向上を示す。
- 探索が不要な場合に多様性促進更新が性能を損なわないことを示す。
提案手法
- タスク非依存の行動埋め込みを、状態集合Sの各状態におけるポリシー行動として定義する: phi(theta^i) = {pi_theta^i(·|s)}_s in S.
- K は埋め込み上の正定半位相のカーネルであり、Det(K(phi(theta^i),phi(theta^j))) で集団の多様性を測定する。
- 結合目的 J(Theta) = sum_i E[R(tau) for pi_theta^i] + lambda_t * Div(Theta) を最適化し、オンラインで lambda_t を Thompson sampling によって適応させる。
- 二つの具体化を導入: DvD-ES(結合多様性項を持つ進化戦略)と DvD-TD3(微分可能な多様性勾配を持つオフポリシーTD3)。
- 決定子を最大化することで多様で高性能な解を回収する理論的正当性を提供する(Theorem 3.3)と、SEカーネルに対する平均ペアワイス距離との第一階微分関係を論じる。
- 埋め込みを計算するために状態の適応サンプリングを使用し、カーネルの選択、状態サンプリング、適応機構のアブレーションを行う。)
実験結果
リサーチクエスチョン
- RQ1決定子ベースの多様性は、RLエージェント集団の有害な循環や冗長性を引き起こすことなく探索を促進できるか?
- RQ2決定子を用いて集団の多様性を最大化することは、多モーダルタスクにおいて多様で高性能なポリシーを生み出すか?
- RQ3探索と活用のバランスをオンラインで適切に適応して、多様性と報酬のトレードオフを調整できるか?
- RQ4DvD-ESとDvD-TD3は、多様性が不要なときに性能を維持できるか?
- RQ5DvDはカーネル選択と埋め込みサンプリングにどれだけ敏感か?
主な発見
| Kernel | Point | Swimmer | Walker2d |
|---|---|---|---|
| Squared Exponential | -547.03 | 354.86 | 1925.86 |
| Exponential | -561.13 | 362.83 | 1929.81 |
| Linear | -551.48 | 354.37 | 1944.95 |
| Rational Quadratic | -548.55 | 246.68 | 2113.02 |
| Matern 3/2 | -578.05 | 349.52 | 1981.66 |
| Matern 5/2 | -557.69 | 357.88 | 1866.56 |
- DvDは vanilla ES や novelty-based ES が失敗する探索タスク(例: 壁で囲まれたゴール ナビゲーション)を解決可能にする。
- マルチモーダルタスク(Cheetah, Ant)で、DvDはモード間で多様で高性能な行動を学習する。
- OpenAI Gymの単一モードタスクで、DvDは vanilla ES に比べて性能低下を最小化し、 novelty駆動 NSR-ES よりも循環を避けることで上回る。
- Humanoid-v2 で、DvD-TD3はサンプル効率と最終性能で優れ、1Mステップで中央値ベスト約6091対5654 E-TD3を達成。
- 適応 lambda_t は固定設定よりも環境を跨いで性能を改善。
- カーネル感度実験では、ほとんどのカーネルが SE に似た高い性能を示し、カーネル選択の頑健性を示す。
- DvD-TD3 は Humanoid-v2(前進移動)で 1M ステップで報酬が 6000超えを示し、オフポリシー集団法の実用的利益を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。