QUICK REVIEW

[論文レビュー] Playing Atari Games with Deep Reinforcement Learning and Human Checkpoint Replay

Ionel-Alexandru Hosu, Traian Rebedea|arXiv (Cornell University)|Jul 18, 2016

Reinforcement Learning in Robotics参考文献 18被引用数 76

ひとこと要約

本論文は、人間がプレイしたゲーム状態を初期状態として使用することで、スパarsely報酬が得られるAtariゲームにおける探索の改善を図る、人間チェックポイントリプレイ（HCR）と呼ばれる深層強化学習手法を紹介する。人間が生成したチェックポイントから学習を開始することで、HCR DQNエージェントはモンテズマのレヴァンチやプライベートアイといった困難なゲームで、ランダムエージェントの2倍以上も高いスコアを達成した。

ABSTRACT

This paper introduces a novel method for learning how to play the most difficult Atari 2600 games from the Arcade Learning Environment using deep reinforcement learning. The proposed method, human checkpoint replay, consists in using checkpoints sampled from human gameplay as starting points for the learning process. This is meant to compensate for the difficulties of current exploration strategies, such as epsilon-greedy, to find successful control policies in games with sparse rewards. Like other deep reinforcement learning architectures, our model uses a convolutional neural network that receives only raw pixel inputs to estimate the state value function. We tested our method on Montezuma's Revenge and Private Eye, two of the most challenging games from the Atari platform. The results we obtained show a substantial improvement compared to previous learning approaches, as well as over a random player. We also propose a method for training deep reinforcement learning agents using human gameplay experience, which we call human experience replay.

研究の動機と目的

標準的な探索戦略（例：ε-greedy）が成功する方策を発見できない、報酬がスパarselyなAtari 2600ゲームにおける課題に対処すること。
モンテズマのレヴァンチやプライベートアイなど、従来の深層強化学習手法では未解決の高難易度ゲームにおいて、サンプル効率と学習性能を向上させること。
人間が生成した初期状態が、学習の加速と方策の発見を促進するカリキュラム学習の一形態として機能するかを検討すること。
報酬が遅延または希少な環境で、人間のチェックポイントリプレイと人間の経験リプレイの有効性を比較すること。

提案手法

人間がプレイしたゲーム状態（チェックポイント）を、深層Qネットワーク（DQN）の学習の初期状態として使用し、エージェントが非ランダムで、おそらく成功する位置から学習を開始できるようにする。
4つの連続フレームのピクセル入力を用いて、経験リプレイを用いた深層Q学習により、状態価値関数を推定する畳み込みニューラルネットワークを訓練する。
人間のプレイトラジェクトリからチェックポイントをサンプリングし、それらを学習エピソードの初期状態として使用することで、人間チェックポイントリプレイ（HCR）を実装する。
人間の経験リプレイ（HER）とHCRを比較する。HERでは、人間のトラジェクトリをリプレイバッファに追加するが、初期状態として使用はしない。
人間のスタート評価指標を適用し、固定された人間が生成した初期状態からエージェントを評価することで、公平な比較を実現する。
アーケード学習環境（ALE）をベンチマークプラットフォームとし、報酬構造がスパarselyで難易度の高いモンテズマのレヴァンチとプライベートアイをテストゲームとして選定する。

実験結果

リサーチクエスチョン

RQ1人間が生成したゲーム状態は、報酬がスパarselyなAtariゲームにおける深層強化学習エージェントの学習効率と性能を顕著に向上させることができるか？
RQ2サンプル効率と最終的なパフォーマンスの観点から、HCRはランダム初期化や人間の経験リプレイに比べてどのように異なるか？
RQ3報酬が遅延してくるモンテズマのレヴァンチやプライベートアイのようなゲームでは、人間のチェックポイントがどれほど探索の負担を軽減できるか？
RQ4チェックポイントを通じて間接的に人間の知識を活用することで、純粋な内発的探索戦略に比べて、より優れた方策の発見が可能になるか？

主な発見

HCR DQNエージェントはモンテズマのレヴァンチで379.1点を達成し、ランダムエージェントの177.1点を大きく上回り、顕著な向上が確認された。
プライベートアイでは、HCR DQNエージェントが1264.4点を獲得した一方、ランダムエージェントは－41点を記録した。これは、HCRがランダムエージェントが完全に失敗するゲームでも学習を可能にしていることを示している。
人間の経験リプレイ（HER）はモンテズマのレヴァンチにおいてランダムエージェントに比べてわずかに良い結果（218点）を示したが、報酬がスパarselyな環境では、単に人間のトラジェクトリデータをそのまま使用するのでは十分な学習効果が得られないことが示された。
両ゲームにおいて、HCR DQNエージェントは近隣の報酬を効果的に収集し、危険なオブジェクトを回避することができ、ランダムエージェントに比べて改善された探索行動を示した。
人間のチェックポイントを使用しても、モンテズマのレヴァンチでライフを失うような負の報酬イベントを完全に回避できなかったため、明示的な報酬形状の欠如が方策の最適化を制限していることが示された。
結果から、人間チェックポイントリプレイは、カリキュラム学習の原則と組み合わせることで、報酬がスパarselyな環境における探索の課題を克服する有望なアプローチであると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。