QUICK REVIEW

[論文レビュー] Hybrid Reward Architecture for Reinforcement Learning

Harm van Seijen, Mehdi Fatemi|arXiv (Cornell University)|Jun 13, 2017

Reinforcement Learning in Robotics参考文献 64被引用数 188

ひとこと要約

この論文はHybrid Reward Architecture (HRA)を導入し、環境報酬を複数の成分に分解して各成分の価値関数を別々に学習し、それらを統合してMs. Pac-Manのような複雑なドメインで学習を改善し人間を上回る性能を達成する。

ABSTRACT

One of the main challenges in reinforcement learning (RL) is generalisation. In typical deep RL methods this is achieved by approximating the optimal value function with a low-dimensional representation using a deep network. While this approach works well in many domains, in domains where the optimal value function cannot easily be reduced to a low-dimensional representation, learning can be very slow and unstable. This paper contributes towards tackling such challenging domains, by proposing a new method, called Hybrid Reward Architecture (HRA). HRA takes as input a decomposed reward function and learns a separate value function for each component reward function. Because each component typically only depends on a subset of all features, the corresponding value function can be approximated more easily by a low-dimensional representation, enabling more effective learning. We demonstrate HRA on a toy-problem and the Atari game Ms. Pac-Man, where HRA achieves above-human performance.

研究の動機と目的

高い複雑さを伴う RL ドメインにおいて、最適値関数を低次元表現で近似することが難しい場合に学習を動機づける。
環境報酬を複数の成分報酬に分解し、それを別個のエージェント（ヘッド）が学習することを提案する。
成分価値関数を集約することで、単一ヘッドのベースラインよりも優れた方針とより速い学習を得られることを示す。

提案手法

環境報酬 R_env を k=1..n の各成分報酬 R_k(s,a,s') に分解する（Eq. 4）。
各成分報酬ごとに別個の RL エージェントを訓練し、共通ネットワークを共有するが、Q_k(s,a;θ) を表す複数のヘッドを持つ。
ヘッドを集約して Q_HRA(s,a;θ) = sum_k Q_k(s,a;θ) （Eq. 5）を形成。
各ヘッドを独自のターゲット y_k,i = R_k(s,a,s') + γ max_a' Q_k(s',a';θ_{i-1})（Eq. 7）で更新。
訓練ターゲットを探索する：Q_env*（デフォルト、一貫性あり） vs. Q_HRA^ν（半一貫性、ランダムポリシーで期待SARSAにより学習）（Eq. 8）。
必要に応じてドメイン知識（特徴フィルタリング、端状態の処理、疑似報酬など）を取り入れて学習効率を向上させる（セクション3.2）。

実験結果

リサーチクエスチョン

RQ1環境報酬を複数のより単純な成分に分解し、それぞれの価値関数を学習することは、 hard RL ドメインでの学習を加速しますか？
RQ2成分価値関数を集約することで、標準的な単一ヘッド手法と比較して競争力のあるまたは優れた方針を生み出しますか？
RQ3HRA は toy タスクおよび Ms. Pac-Man のような難しい Atari ゲームで、ドメイン知識を加えた場合を含めてどう機能しますか？
RQ4学習を導く際に最も効果的なトレーニングターゲット（Q_env* vs. Q_HRA^ν）はどれですか？
RQ5ドメイン知識は HRA の性能をさらに高めるにはどうすればよいですか？

主な発見

HRA は果物収集タスクと Ms. Pac-Man で DQN ベースラインを上回り、特にドメイン知識を活用すると優位性が高まる。
Q_HRA^ν（ランダムポリシーに基づくターゲット）を使用すると、ナビゲーションベースの領域で学習を助ける半一貫性のある訓練ターゲットを提供できる。
果物タスクでは、ドメイン知識の導入（関連性の低い特徴の除去、端状態の識別、疑似報酬の使用）により大きな性能向上を達成し、表形式の表現でほぼ最適行動を実現。
Ms. Pac-Man では、報酬分解とGVFを用いた HRA は、固定開始・ランダム開始の評価のいずれでも A3C ベースラインおよび人間ベンチマークを大幅に上回り、人間の高得点を超え、実行記憶を模した拡張で最高点に近づく高得点を達成。
HRA はヘッドあたりの状態空間が約 10^3 の多数の GVF を作成することでスケールし、単一のコンパクトな表現が苦戦する領域（Ms. Pac-Man）でも効果的に学習できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。