Skip to main content
QUICK REVIEW

[論文レビュー] Illuminating Generalization in Deep Reinforcement Learning through Procedural Level Generation

Niels Justesen, Rubén Rodríguez Torrado|arXiv (Cornell University)|Jun 28, 2018
Reinforcement Learning in Robotics参考文献 33被引用数 119
ひとこと要約

この論文は、訓練中のprocedural content generation(PCG)と Progressive PCG(PPCG)が新しく未見のレベル(人間設計レベルを含む)に対する深層強化学習エージェントの一般化にどのように影響するかを、複数の2Dゲームで調査する。PPCGは一部のゲームで一般化とパフォーマンスを向上させる可能性がある一方、訓練レベルとテストレベル間の分布ミスマッチは依然として重要な課題である。

ABSTRACT

Deep reinforcement learning (RL) has shown impressive results in a variety of domains, learning directly from high-dimensional sensory streams. However, when neural networks are trained in a fixed environment, such as a single level in a video game, they will usually overfit and fail to generalize to new levels. When RL models overfit, even slight modifications to the environment can result in poor agent performance. This paper explores how procedurally generated levels during training can increase generality. We show that for some games procedural level generation enables generalization to new levels within the same distribution. Additionally, it is possible to achieve better performance with less data by manipulating the difficulty of the levels in response to the performance of the agent. The generality of the learned behaviors is also evaluated on a set of human-designed levels. The results suggest that the ability to generalize to human-designed levels highly depends on the design of the level generators. We apply dimensionality reduction and clustering techniques to visualize the generators' distributions of levels and analyze to what degree they can produce levels similar to those designed by a human.

研究の動機と目的

  • 深層RLエージェントは2Dアーケードゲームの固定で限られたレベルで訓練すると過剰適合して一般化が乏しくなることを実証する。
  • Procedurally generated levelsが訓練分布内での一般化を改善しうるか、そしてそれを超えて一般化を向上させるかを評価する。
  • 訓練中のエージェントの性能に応じてレベル難易度を適応させるProgressive PCGを導入する。
  • 生成レベルの分布を人間設計レベルと比較するため、次元削減とクラスタリングを用いて分析する。

提案手法

  • General Video Game AI(GVG-AI)フレームワークに接続したOpenAI Gym上のCNNベースネットワークを用いたA2C(Advantage Actor-Critic)を利用。
  • 4つの訓練レジメンを実装:単一の人間設計レベル;複数の人間設計レベル;固定難易度のPCG;勝敗信号に基づいて難易度を調整するProgressive PCG。
  • 活性レベルサイズ、オブジェクト数、レイアウトの複雑さに影響を及ぼす制御可能な難易度パラメータを備えたBoulderdash、Frogs、Solarfox、Zelda向けの建設的PCGジェネレータを開発。
  • 勝利後に難易度が0から開始され、勝利後に増加(敗北後に減少)する共有難易度を持つPPCGを導入。
  • 学習済み方針を難易度0.5および1の30レベルの事前生成レベルと、5つの人間設計レベルで評価して一般化を測定。乱択および最大スコアのベースラインと比較。
  • 生成レベルの分布を人間設計レベルと比較するためにPCAとDBSCANを適用して可視化・分析。

実験結果

リサーチクエスチョン

  • RQ1固定レベルのセットで訓練すると、未見レベルへの過学習と一般化の欠如を引き起こすか。
  • RQ2訓練中のPCGレベルは生成されたレベル分布内での一般化を改善でき、PPCGはこの一般化をさらに高めることができるか。
  • RQ3ジェネレータ設計とレベル難易度の進行が人間設計レベルへの移行にどのような影響を与えるか。
  • RQ4生成レベルは次元削減とクラスタリングで評価した人間設計レベルの分布に近づくか。

主な発見

  • 単一レベルで訓練したエージェントは訓練レベルで高いスコアを示す一方、テストレベルへの一般化が乏しく、過学習を示唆。
  • Procedurally generated levelsは訓練分布内の未見レベルへの一般化を一部のゲームで可能にし、PPCGはエージェントの性能に合わせて難易度を一致させることで学習を補助する。
  • PPCGはFrogs(難易度高レベルでの勝率57%)とZeldaにおいて、生成レベルと人間設計レベルの両方で顕著な改善を達成する一方、SolarfoxとBoulderdashでは固定難易度PCGが特定の設定でPPCGを上回ることがある。
  • 人間設計レベルへの一般化は不均一で、レベルジェネレータ設計とジェネレータ分布と人間設計レイアウトの整合性に強く依存する。
  • 次元削減とクラスタリングは生成レベルに明確なクラスタを示し、一部の人間設計レベルが外れ値として現れることで、生成と人間設計コンテンツ間の分布ギャップを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。