QUICK REVIEW

[論文レビュー] Leveraging Procedural Generation to Benchmark Reinforcement Learning

Karl Cobbe, Christopher Hesse|arXiv (Cornell University)|Dec 3, 2019

Reinforcement Learning in Robotics参考文献 25被引用数 171

ひとこと要約

Procgen Benchmarkは、generalizationとサンプル効率を評価するための16の手続き的に生成された多様なゲーム風環境を提供し、より大きなモデルは両方の指標を向上させ、多様な分布が不可欠であることを示している。

ABSTRACT

We introduce Procgen Benchmark, a suite of 16 procedurally generated game-like environments designed to benchmark both sample efficiency and generalization in reinforcement learning. We believe that the community will benefit from increased access to high quality training environments, and we provide detailed experimental protocols for using this benchmark. We empirically demonstrate that diverse environment distributions are essential to adequately train and evaluate RL agents, thereby motivating the extensive use of procedural content generation. We then use this benchmark to investigate the effects of scaling model size, finding that larger models significantly improve both sample efficiency and generalization.

研究の動機と目的

一般化を測定するために、多様で高品質な RL トレーニング環境の必要性を動機づける。
16 の手続き的に生成された環境を備えた Procgen Benchmark を紹介する。
Procgen を用いたサンプル効率と一般化を評価する実験プロトコルを提供する。
環境の多様性とモデル規模のスケーリングがRLの性能に与える影響を示す。

提案手法

共有の 15 アクション空間と 64x64x3 の観測を持つ 16 の手続き的に生成された環境を定義する。
ロバストな政策を要求するよう、手続き的レベルの変動を伴う決定論的な状態遷移関数を使用する。
実験プロトコルを提供: full distributions に対して 200M timesteps で訓練された PPO のベースライン; easy vs hard の難易度。
有限なレベル集合（例: 500 レベル）で訓練し、全分布で評価することで一般化を測定する。
訓練セットサイズとレベル分布を変化させて、サンプル効率と一般化を評価する。
IMPALA-スタイルのCNNアーキテクチャ（1x, 2x, 4x チャンネル数）を用いてモデルサイズをスケールし、Nature-CNN と比較する；それに応じて学習率を調整する。

実験結果

リサーチクエスチョン

RQ1訓練セットサイズは、手続き的に生成されたレベル全体での一般化にどのように影響しますか？
RQ2固定レベルのベンチマークと比較して、手続き的生成は訓練分布を超えた一般化能力を向上させますか？
RQ3多様な RL 環境におけるサンプル効率と一般化に対するモデルサイズの影響は何ですか？
RQ4PPO は Procgen benchmarks において Rainbow と比べて安定性と性能の点でどうですか？

主な発見

エージェントは小さな訓練セットに強く過適合し、ほとんどの環境で約 10,000 レベルにアクセスすることで一般化が向上します。
固定された決定論的なレベルのシーケンスで訓練すると大きな train/test のギャップが生じ、多様な分布の必要性を浮き彫りにします。
より大きなモデルは、環境を超えてサンプル効率と一般化の双方を著しく改善します。
IMPALA-style のチャネルを因子倍増させると性能が向上します。小さい Nature-CNN は Procgen で訓練に失敗することが多いです。
PPO は Rainbow より Procgen 全体で一貫した性能を示しますが、調整された設定では Rainbow がいくつかの環境で上回ります。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。