QUICK REVIEW

[論文レビュー] Playing Atari with Deep Reinforcement Learning

Volodymyr Mnih, Koray Kavukcuoglu|arXiv (Cornell University)|Dec 19, 2013

Reinforcement Learning in Robotics参考文献 29被引用数 5,113

ひとこと要約

本論文は、経験リプレイとQ学習の変種を用いて、生のピクセル入力からアタリ2600ゲームを学習して遊ぶ深層Qネットワーク（DQN）を提案し、ほとんどのゲームで最先端の成績を達成します。

ABSTRACT

We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw pixels and whose output is a value function estimating future rewards. We apply our method to seven Atari 2600 games from the Arcade Learning Environment, with no adjustment of the architecture or learning algorithm. We find that it outperforms all previous approaches on six of the games and surpasses a human expert on three of them.

研究の動機と目的

高次元の視覚入力から直接制御ポリシーを学習できる深層畳み込みニューラルネットワークを実証する。
生のピクセルからのRLのために経験リプレイを組み込んだ深層Q学習アルゴリズムを開発・安定化する。
単一のアーキテクチャで、ゲーム固有のエンジニアリングを行わずに、複数のアタリ2600ゲームでこの手法を評価する。
この手法が従来のRL手法を上回り、いくつかのゲームで人間の性能に近づく、あるいはそれを超えることを示す。

提案手法

生の画面フレームからQ(s,a;θ)として行動価値関数を近似する畳み込みニューラルネットワーク（Qネットワーク）を用いる。
目標値 y = r + γ max_a' Q(s',a';θ−) を用いたQ学習の一変種と確率的勾配降下法を適用する。
大規模なリプレイメモリに遷移 (s,a,r,s') を格納して経験リプレイを組み込み、アップデートのためのミニバッチをサンプリングする。
入力フレームをグレースケール化し、84x84へダウンサンプリングし、最後の4フレームをネットワークへの入力として積み重ねて前処理する。
4D入力84x84x4を持つアーキテクチャを採用し、2つの畳み込み層（16x8x8、ストライド4; 32x4x4、ストライド2）と256ユニットの全結合層を経て、各行動ごとに出力ユニットを設ける。
RMSPropで訓練し、epsilon-greedy探索を用い、訓練効率を高めるためにフレームスキップを適用する。

実験結果

リサーチクエスチョン

RQ1単一の深層ニューラルネットワークアーキテクチャが、生のピクセル入力と報酬信号だけを用いて、アタリ2600ゲームの範囲をプレイすることを学習できるか？
RQ2経験リプレイを取り入れることで、高次元の視覚領域における深層Q学習の安定性とデータ効率の高い学習が実現するか？
RQ3ゲーム固有の特徴量設計なしで、さまざまなゲームに対して深層Qネットワークは従来のRL手法および人間プレイヤーと比較してどのように性能を示すか？

主な発見

Random	Sarsa [3]	Contingency [4]	DQN	Human	HNeat Best [8]	HNeat Pixel [8]
354	1.2	0	-20.4	157	110	179
996	5.2	129	-19	614	665	271
1743	6	159	-17	960	723	268
4092	168	470	20	1952	1705	581
7456	31	368	-3	18900	28010	3690
3616	52	106	19	1800	920	1720
1332	4	91	-16	1325	800	1145
5184	225	661	21	4500	1740	1075

DQNは、テストした7つのアタリゲームのうち6つで、これまでに報告されたRL手法をすべて上回った。
DQNは7ゲーム中3つのゲームで人間の専門家を超えた。
手作りの特徴量を用いず、単一のアーキテクチャとハイパーパラメータをゲーム横断で使用しても高い結果を得られた。
経験リプレイとオフポリシーQ学習は、RLにおける大規模ニューラルネットワークのデータ効率と学習安定性に寄与した。
訓練の進捗はQ値予測でモニタリングでき、エピソード報酬よりも滑らかに上昇した。
本手法は生のピクセル入力から直接学習し、競争力のあるゲームプレイポリシーを生み出すことができた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。