QUICK REVIEW

[論文レビュー] Distributed Deep Q-Learning

Hao Yi Ong, Kevin Chavez|arXiv (Cornell University)|Aug 18, 2015

Face and Expression Recognition参考文献 18被引用数 60

ひとこと要約

本論文は、DistBeliefフレームワークを用いて複数のマシンに跨って深層Qネットワーク（DQN）学習をスケーリングする分散型の深層Q学習フレームワークを提案している。非同期でデータ並列な学習が可能であり、入力として生のピクセルとゲームスコアから直接強化学習を実現する。ハイパーパrameterの微調整を最小限に抑え、学習速度と平均報酬が作業者数の増加に伴い線形に向上することを示しており、単純なスネークゲーム環境において生のピクセルとスコアからのエンドツーエンドの強化学習が有効に実現されている。

ABSTRACT

We propose a distributed deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is based on the deep Q-network, a convolutional neural network trained with a variant of Q-learning. Its input is raw pixels and its output is a value function estimating future rewards from taking an action given a system state. To distribute the deep Q-network training, we adapt the DistBelief software framework to the context of efficiently training reinforcement learning agents. As a result, the method is completely asynchronous and scales well with the number of machines. We demonstrate that the deep Q-network agent, receiving only the pixels and the game score as inputs, was able to achieve reasonable success on a simple game with minimal parameter tuning.

研究の動機と目的

生の動画フレームなどの高次元のセンサ入力で深層強化学習エージェントを学習するという課題に対処すること。
分散コンピューティングフレームワークを用いて、複数のマシンに跨って深層Qネットワークの学習を効率的にスケーリングすること。
手作業で設計された特徴量を一切使わず、生のピクセルとゲームスコアからエンドツーエンドの学習を可能にすること。
制御された環境下で分散DQN学習のスケーラビリティと収束性を評価すること。

提案手法

複数のマシンに跨って非同期でデータ並列なDQNの学習を可能にするために、DistBeliefソフトウェアフレームワークを変更して適用する。
Q関数の近似に深層畳み込みニューラルネットワークを用い、入力としてスタックされたグレースケール化・ダウンサンプリングされたゲームフレームを処理する。
元のDQNアルゴリズムと同様に、経験リプレイとターゲットネットワーク技術を用いて学習の安定化を図る。
パラメータサーバーアーキテクチャを採用し、作業者が共有されたモデル重みを非同期で更新し、定期的に最新のモデルを取得する。
入力次元を低減するために、生のゲームフレームをグレースケールに変換し、ダウンサンプリングした後、4つのフレームをスタックして入力とする。
作業者の数を増やし、通信のボトル neck を軽減するためにミニバッチサイズを調整することで、学習をスケーリングする。

実験結果

リサーチクエスチョン

RQ1分散型DQN学習は、作業者数の増加に伴い、学習速度に線形的なスケーリングを達成できるか？
RQ2非同期的なパラメータ更新は、深層強化学習における収束性と性能にどのような影響を与えるか？
RQ3DQNエージェントは、手作業で設計された特徴量を一切使わず、生のピクセルとゲームスコアから有効な制御方策を学習できるか、その範囲はどの程度か？
RQ4分散DQN学習における主要なパフォーマンスボトル neck は何か、そしてそれらはどのように緩和できるか？

主な発見

分散DQN実装は、作業者数の増加に伴い平均報酬が線形に増加し、2人の作業者を用いた場合、すべてのタイムステップで直列実装の約2倍の平均報酬を達成した。
学習は勾配計算によって計算ボトル neck に支配されており、通信やパラメータサーバー更新の遅延は特に大きなモデルでは顕著に小さいことがわかった。
モデルサイズと作業者数の両方の増加に伴い、効果的なスケーリングが実現され、大規模な分散DQN学習の実現可能性が示された。
最小限のハイパーパrameterチューニングで、スネークゲームにおいて妥当なパフォーマンスを達成し、生のピクセルとスコアから直接学習を実現した。
ミニバッチサイズの増加により勾配の分散が低減され、通信頻度も低下し、パラメータサーバー更新の遅延の影響が緩和された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。