Skip to main content
QUICK REVIEW

[論文レビュー] Deep Learning for Reward Design to Improve Monte Carlo Tree Search in ATARI Games

Xiaoxiao Guo, Satinder Singh|arXiv (Cornell University)|Apr 24, 2016
Artificial Intelligence in Games参考文献 29被引用数 28
ひとこと要約

本論文は、PGRD-DLと呼ばれる深層強化学習手法を提案する。この手法は畳み込みニューラルネットワーク(CNN)を用いて、生のピクセル入力から非線形報酬ボーナス関数を自動で学習し、報酬が疎で遅延するATARIゲームにおけるUCTベースのモンテカルロツリー探索(MCTS)の性能を顕著に向上させる。ゲーム固有の状態表現を学習することで、遅延した結果を予測し、手作業による特徴量設計や報酬形状の必要なく、探索と計画の効率性を向上させる。

ABSTRACT

Monte Carlo Tree Search (MCTS) methods have proven powerful in planning for sequential decision-making problems such as Go and video games, but their performance can be poor when the planning depth and sampling trajectories are limited or when the rewards are sparse. We present an adaptation of PGRD (policy-gradient for reward-design) for learning a reward-bonus function to improve UCT (a MCTS algorithm). Unlike previous applications of PGRD in which the space of reward-bonus functions was limited to linear functions of hand-coded state-action-features, we use PGRD with a multi-layer convolutional neural network to automatically learn features from raw perception as well as to adapt the non-linear reward-bonus function parameters. We also adopt a variance-reducing gradient method to improve PGRD's performance. The new method improves UCT's performance on multiple ATARI games compared to UCT without the reward bonus. Combining PGRD and Deep Learning in this way should make adapting rewards for MCTS algorithms far more widely and practically applicable than before.

研究の動機と目的

  • 計算制約下で報酬が疎で遅延するATARIゲームにおいて、伝統的なモンテカルロツリー探索(MCTS)の限界を克服すること。
  • 従来のポリシーグラデント報酬設計(PGRD)手法が手作業による状態行動特徴量に依存する問題を解消し、生のピクセル観測からエンドツーエンドの特徴量学習を可能にすること。
  • 深層学習フレームワークに分散低減勾配推定器を組み込むことで、PGRDの安定性と性能を向上させること。
  • 学習された報酬ボーナスが、遅延報酬の影響を効果的に軽減し、複雑で高次元な環境におけるUCT計画を改善できることを示すこと。

提案手法

  • PGRD(報酬設計のためのポリシーグラデント)を拡張し、生のピクセル観測から直接非線形報酬ボーナス関数を学習する多層畳み込みニューラルネットワーク(CNN)を採用する。
  • 報酬ボーナス関数のポリシーグラデント最適化における訓練の安定性とサンプル効率を向上させるために、分散低減勾配推定器を用いる。
  • UCTアルゴリズムに学習された報酬ボーナスを統合する際、行動選択スコアに環境報酬に加えて学習ボーナスを組み込むことで、UCTの行動選択を修正する。
  • UCT計画中に収集されたオンポリシー経験を用いて、CNNベースの報酬ボーナス関数を訓練することで、ボーナスがエージェントの現在の計画行動に適応できるようにする。
  • 報酬ボーナスが、ターゲットとなるATARIゲームにおけるUCTプランナの性能向上を最適化するように、微分可能でエンドツーエンドの訓練手順を採用する。
  • Ms. Pacman や Q*Bert を含む複数のATARIゲームにこの手法を適用し、遅延した否定的結果を予測するゲーム固有の状態識別を学習できるかを評価する。

実験結果

リサーチクエスチョン

  • RQ1深層ニューラルネットワークは、生のピクセル入力から非線形的でゲーム固有の報酬ボーナスを効果的に学習できるか、ATARIゲームにおけるMCTS計画性能を向上させられるか?
  • RQ2分散低減勾配推定器を用いることで、高次元の視覚入力に適用したPGRDにおける報酬ボーナス関数の訓練が安定化され、改善されるか?
  • RQ3学習された報酬ボーナスは、MCTSベースの計画において、報酬が疎で遅延する状況の影響をどの程度軽減できるか?
  • RQ4提案手法は、手作業による特徴量設計や報酬工学を必要とせずに、異なるATARIゲームに一般化可能か?

主な発見

  • PGRD-DLは、報酬ボーナスなしの標準的UCTと比較して、複数のATARIゲームでUCTの性能を顕著に向上させ、学習された報酬形状の有効性を示している。
  • 本手法は、敵との遭遇や落下が間もなく訪れる状態を特定するなど、ゲーム固有の状態識別を効果的に学習している。
  • 可視化結果から、報酬ボーナスが状態ごとに動的に変化しており、異なる文脈で異なる行動が最大のボーナスを受けることが示され、非自明で文脈依存の学習が行われていることがわかる。
  • Ms. Pacmanでは、敵に向かう行動に対して負の値が付与され、敵を避ける行動に対しては正の値が付与されるが、これは目的報酬がゼロのままでも成立する。
  • Q*Bertでは、ピラミッドから落下するリスクがある行動に対して、落下が発生する前から負の値が付与され、UCTがより安全な経路を探索するのを支援する。
  • 学習された報酬ボーナスは遅延結果を効果的に予測し、優れた性能を達成するために深層の計画や多数の軌道を必要としなくてもよいようにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。