QUICK REVIEW

[論文レビュー] Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models

Bradly C. Stadie, Sergey Levine|arXiv (Cornell University)|Jul 3, 2015

Reinforcement Learning in Robotics参考文献 16被引用数 303

ひとこと要約

本論文では、アタリゲームのような高次元環境における深層強化学習のスケーラブルな探索手法を提案する。予測誤差に基づく学習済み状態表現における予測誤差を用いて、探索ボーナスを生成する深層予測モデルを用いる。この手法は、ε-greedy、ボルツマン、トムソンサンプリング戦略を上回り、複数のゲームで最先端の結果を達成し、学習速度が速く、最終スコアも高い。

ABSTRACT

Achieving efficient and scalable exploration in complex domains poses a major challenge in reinforcement learning. While Bayesian and PAC-MDP approaches to the exploration problem offer strong formal guarantees, they are often impractical in higher dimensions due to their reliance on enumerating the state-action space. Hence, exploration in complex domains is often performed with simple epsilon-greedy methods. In this paper, we consider the challenging Atari games domain, which requires processing raw pixel inputs and delayed rewards. We evaluate several more sophisticated exploration strategies, including Thompson sampling and Boltzman exploration, and propose a new exploration method based on assigning exploration bonuses from a concurrently learned model of the system dynamics. By parameterizing our learned model with a neural network, we are able to develop a scalable and efficient approach to exploration bonuses that can be applied to tasks with complex, high-dimensional state spaces. In the Atari domain, our method provides the most consistent improvement across a range of games that pose a major challenge for prior methods. In addition to raw game-scores, we also develop an AUC-100 metric for the Atari Learning domain to evaluate the impact of exploration on this benchmark.

研究の動機と目的

アタリゲームのような高次元で複雑な環境において、従来の手法が失敗するような効率的探索の課題に対処すること。
可算可能な状態行動空間を必要とするベイジアンおよびPAC-MDPアプローチの制限を克服し、高次元では非現実的であることを考慮すること。
深層ニューラルネットワークを活用して予測誤差から状態の新規性を推定する、スケーラブルなモデルベース探索戦略を開発すること。
動的で学習されたモデルの不確実性に基づくインcentiveを導入することで、サンプル効率と学習速度を向上させること。
特に人間プレーヤーが過去のRL手法を上回る環境において、多様なアタリゲームで一貫したパフォーマンス向上を示すこと。

提案手法

現在の観測値と行動から次の状態を予測するための深層ニューラルネットワークを訓練し、低次元の状態表現を学習する。
真の次状態と予測された次状態の差（予測誤差）を、状態の新規性の代理指標として用い、探索ボーナスを生成する。
ポリシー学習中に探索ボーナスを報酬信号に統合し、予測不確実性が高い状態への訪問を促進する。
動的モデルとポリシーを同時に訓練することで、新しい環境構造にリアルタイムで適応可能にする。
入力の生画像から意味のある低次元表現を抽出するために、オートエンコーダーを用いる。
経験リプレイと探索ボーナスを用いた深層Qネットワーク（DQN）訓練を用いたオンライン強化学習設定で本手法を適用する。

実験結果

リサーチクエスチョン

RQ1学習済み予測モデルは、高次元状態空間において、可算ベースの探索ボーナスを効果的に置き換えられるか？
RQ2予測誤差に基づくモデルベース探索は、ε-greedy やボルツマン探索といったヒューリスティック手法と比較して、学習速度と最終パフォーマンスの面でどのように差がつくか？
RQ3モデルベース探索は、報酬が疎で動的が複雑な挑戦的なアタリゲームにおいて、サンプル効率とパフォーマンスをどの程度向上できるか？
RQ4深層ニューラルネットワークを用いた動的モデル化は、生画像入力を持つ環境において、スケーラブルかつ効果的な探索を可能にするか？
RQ5人間プレーヤーが著しく優れているゲームにおいて、本手法はどの程度の性能を示すか？

主な発見

提案手法は、14ゲーム中7ゲームで最高の最終スコアを記録し、DQNや人間エキスパートのスコアを上回る結果を示した。
モンテズマのレインジで、最終スコア4,367を達成し、次に良い手法（1,059.6）を大きく上回り、高い探索性を示す環境でも成功を収めた。
シーキュアで最終スコア20,182を記録し、人間エキスパートの13,455とDQNベースラインの2,106を上回り、複雑で報酬が疎な環境でも優れたパフォーマンスを示した。
AUC-100指標では、ε-greedyや他のベースラインと比較して、本手法がより速い学習曲線を示し、ゲーム全体で一貫した改善を達成した。
ボルツマンおよびトムソンサンプリングはε-greedyを上回ったが、本モデルベースボーナス手法に及ばず、多様なゲームタイプにわたる一貫した向上が見られた。
静的オートエンコーダー手法に比べ、本手法はトレーニング中にオートエンコーダーを動的に再訓練することで、より優れたパフォーマンスを達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。