Skip to main content
QUICK REVIEW

[論文レビュー] Enhanced POET: Open-Ended Reinforcement Learning through Unbounded Invention of Learning Challenges and their Solutions

Rui Wang, Joel Lehman|arXiv (Cornell University)|Mar 19, 2020
Reinforcement Learning in Robotics参考文献 61被引用数 43
ひとこと要約

Enhanced POET は POET を、ドメイン一般的な新規性の測定、効率的な目標切替、CPPNベースの環境エンコーディング、そして新しいオープンエンド性進捗指標とともに拡張し、より強力なオープンエンド強化学習を示す。

ABSTRACT

Creating open-ended algorithms, which generate their own never-ending stream of novel and appropriately challenging learning opportunities, could help to automate and accelerate progress in machine learning. A recent step in this direction is the Paired Open-Ended Trailblazer (POET), an algorithm that generates and solves its own challenges, and allows solutions to goal-switch between challenges to avoid local optima. However, the original POET was unable to demonstrate its full creative potential because of limitations of the algorithm itself and because of external issues including a limited problem space and lack of a universal progress measure. Importantly, both limitations pose impediments not only for POET, but for the pursuit of open-endedness in general. Here we introduce and empirically validate two new innovations to the original algorithm, as well as two external innovations designed to help elucidate its full potential. Together, these four advances enable the most open-ended algorithmic demonstration to date. The algorithmic innovations are (1) a domain-general measure of how meaningfully novel new challenges are, enabling the system to potentially create and solve interesting challenges endlessly, and (2) an efficient heuristic for determining when agents should goal-switch from one problem to another (helping open-ended search better scale). Outside the algorithm itself, to enable a more definitive demonstration of open-endedness, we introduce (3) a novel, more flexible way to encode environmental challenges, and (4) a generic measure of the extent to which a system continues to exhibit open-ended innovation. Enhanced POET produces a diverse range of sophisticated behaviors that solve a wide range of environmental challenges, many of which cannot be solved through other means.

研究の動機と目的

  • 学習課題の無制限な連続を創出し解決することで、オープンエンド強化学習を前進させる。
  • 手作りのエンコーディングを超えて環境の発明を導くためのドメイン一般的な新規性指標を開発する。
  • スケーラブルなオープンエンド探索を維持するために、環境間で解を転送する効率を改善する。
  • 多様で複雑な環境を生成する表現力の高い環境エンコーディングを導入する。
  • 継続的な革新を追跡する定量的なオープンエンド進捗指標(ANNECS)を提案・検証する。

提案手法

  • PATA-EC(Performance of All Transferred Agents Environment Characterization)を導入し、環境全体で全エージェントの性能に基づいて新規性を定量化する。
  • ドメイン固有の新規性をドメイン一般の距離指標に置換する;新規性評価には正規化されたユークリッド距離を用いる。
  • 転送機構を改善し、転送を許可するには過去5回の現職スコアの最大値を超えることを要求して、ノイズと計算を削減する。
  • 手作りの障害物を超えて、より複雑で多様な風景を生成するために、CPPNベースの環境エンコーディング(NEAT経由)を採用する。
  • ANNECS(Accumulated Number of Novel Environments Created and Solved)を用いて、1回の実行全体を通じた継続的なオープンエンド進捗を測定する。
  • CPPNでエンコードされた障害物コースを備えた2次元二足歩行領域で Enhanced POET をデモンストレーションし、多様性、転送効率、およびオープンエンド性指標を評価する。

実験結果

リサーチクエスチョン

  • RQ1ドメイン一般の新規性指標(PATA-EC)は、ドメインを超えて意味のある多様な環境の創出を効果的に導くことができるか?
  • RQ2改善された転送機構は、解探索を維持または改善しつつ計算量を削減できるか?
  • RQ3CPPNベースの環境エンコーディングは、手作りエンコーディングよりも豊かで多様なオープンエンド環境を可能にするか?
  • RQ4ANNECS 指標は Enhanced POET における継続的なオープンエンド進歩を信頼性をもって反映するか?
  • RQ5より表現力のある領域で、Enhanced POET は原著POETを超えるオープンエンド学習をどの程度示せるか?

主な発見

  • PATA-EC はドメイン一般の環境的新規性を可能にし、手作りの新規性と同等の多様性を達成する一方、検証ドメインの ES ステップで計算量が約82%増加する。
  • 改良された転送戦略は、元の POET のコストのおよそ79.7%まで計算を削減しつつ、多様性と問題解決能力を維持する。
  • CPPNベースの環境エンコーディングは、手作りエンコーディングより質的に豊かな環境を生み出す、障害物配置の多様性を広くもたらす。
  • CPPNベースのエンコーディングを用いた Enhanced POET は、深く階層的にネストされた環境系統を示し、オープンエンド探索を示唆する。
  • コントロール実験は、POET が解ける環境には自己生成カリキュラムが必要であり、直接最適化と手動カリキュラムは POET の暗黙のカリキュラムを下回ることを示す。
  • ANNECS は時間とともに増加し、実行全体を通じて新規環境の継続的な生成と解決を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。