QUICK REVIEW

[論文レビュー] Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization

Thomas Pierrot, Mac\'e, Valentin|arXiv (Cornell University)|Jun 15, 2020

Reinforcement Learning in Robotics参考文献 37被引用数 13

ひとこと要約

この論文では、報酬が疎であり、欺瞞的であるような連続的制御環境において、多様で高パフォーマンスなニューラルポリシーをサンプル効率よく発見できるようにする、qd-pgという新しいQuality-Diversity（QD）アルゴリズムを提案する。qd-pgは、状態レベルおよびエピソードレベルでの勾配ベースの変異を活用することで、進化的およびポリシー勾配ベースラインと比較して、はるかに高いサンプル効率とロバスト性を達成している。

ABSTRACT

A fascinating aspect of nature lies in its ability to produce a large and diverse collection of organisms that are all high-performing in their niche. By contrast, most AI algorithms focus on finding a single efficient solution to a given problem. Aiming for diversity in addition to performance is a convenient way to deal with the exploration-exploitation trade-off that plays a central role in learning. It also allows for increased robustness when the returned collection contains several working solutions to the considered problem, making it well-suited for real applications such as robotics. Quality-Diversity (QD) methods are evolutionary algorithms designed for this purpose. This paper proposes a novel algorithm, QDPG, which combines the strength of Policy Gradient algorithms and Quality Diversity approaches to produce a collection of diverse and high-performing neural policies in continuous control environments. The main contribution of this work is the introduction of a Diversity Policy Gradient (DPG) that exploits information at the time-step level to drive policies towards more diversity in a sample-efficient manner. Specifically, QDPG selects neural controllers from a MAP-Elites grid and uses two gradient-based mutation operators to improve both quality and diversity. Our results demonstrate that QDPG is significantly more sample-efficient than its evolutionary competitors.

研究の動機と目的

報酬が疎く欺瞞的である環境において、性能だけでなく多様性を促進することで、強化学習における探索と活用のトレードオフを緩和すること。
報酬が疎いか誤解を招く場合に学習が局所最適に陥るような、欺瞞的環境における標準ポリシー勾配法の限界を克服すること。
ランダムな変異を勾配ベースの多様性探索に置き換えることで、Quality-Diversity（QD）最適化におけるサンプル効率を向上させること。
1回の学習ランで多様で高パフォーマンスなポリシーを生成することで、実世界のロボット工学アプリケーションにおけるロバストでマルチソリューションの成果を実現すること。
品質と多様性の目的を分離した更新により、共同最適化と比較して、より優れたパフォーマンスと探索が達成されることを示すこと。

提案手法

ポリシーのパフォーマンスだけでなく、状態レベルおよびエピソードレベルでの行動の多様性に対しても勾配を計算する多様性ポリシー勾配（DPG）を提案する。
MAP-ElitesフレームワークにDPGを統合し、行動記述子（BD）を用いてポリシーを多様な行動のグリッドにマップする。
遷移を複数回再利用するためのリプレイバッファを用い、1トラジェクトリあたり1サンプルの方法と比較してデータ効率を向上させる。
品質（標準ポリシー勾配）と多様性（DPG）の2つの別々の勾配更新を適用し、勾配の衝突を避けるために最適化を分離する。
状態空間における新奇性を活用し、Ant-Mazeのようなタスクで1エピソードあたり3000以上の遷移をすべて活用できるようにする。
オフポリシー強化学習を用いてニューラルポリシーを学習させ、ランダムな摂動ではなく解析的勾配に基づく効率的な重み更新を可能にする。

実験結果

リサーチクエスチョン

RQ1高次元制御タスクにおけるQD最適化において、勾配ベースの多様性探索機構は、ランダムな変異を上回ることができるか？
RQ2品質と多様性の目的を分離したポリシー勾配による最適化は、共同最適化と比較して、より高いサンプル効率とソリューションの多様性を達成できるか？
RQ3qd-pgは、報酬が疎な欺瞞的制御問題を解くために、最先端のポリシー勾配法および進化的手法と比較して、どのように性能を発揮するか？
RQ4DPG部における状態レベルの新奇性の使用は、複雑な環境における探索および収束性をどの程度向上させるか？
RQ5提案手法は、標準RL手法が失敗する状況でも、1回の学習ランでロバストで多様かつ高パフォーマンスなポリシーを生成できるか？

主な発見

qd-pgは、従来の進化的QD手法と比較して、はるかに高いサンプル効率を達成しており、サンプル要件を数個のオーダーも減少させた。
Ant-Trap や Ant-Maze といった欺瞞的環境では、標準ポリシー勾配法（例：TD3, SAC）が局所最適に収束するのに対し、qd-pgは高パフォーマンスで多様なポリシーを効果的に発見できた。
最終パフォーマンスとデータ効率の両面で、pga-meを上回った。これは、高次元空間において勾配ベースの多様性探索が遺伝的変異を上回ることを示している。
アブレーションスタディの結果、品質のみを最適化すると、報酬の罠により欺瞞的環境で失敗するのに対し、多様性のみを最適化すると収束が遅く、パフォーマンスも低くなることが確認された。
品質と多様性の更新を分離することで、共同最適化に比べてより良い学習ダイナミクスと最終的な成果が得られ、これは勾配の衝突による悪影響を避ける効果がある。
Ant-Mazeでは、高い四分位範囲のパフォーマンススプレッドを示しており、初期化の感度や複雑な損失関数のダイナミクスのため、学習プロセスが一時的に不安定になる可能性があることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。