QUICK REVIEW

[論文レビュー] Many-Goals Reinforcement Learning

Vivek Veeriah, Junhyuk Oh|arXiv (Cornell University)|Jun 22, 2018

Reinforcement Learning in Robotics参考文献 17被引用数 29

ひとこと要約

本稿では、深層ニューラルネットワークを用いた多目的強化学習（RL）を提案し、視覚的RL環境における教師なし熟達、事前学習、補助タスク学習を可能にする。1つの共有ニューラルネットワークを用いて、各経験遷移に対して複数の目的のQ値を更新することで、49種類のAtariゲームにおいてA2Cや他のベースラインを上回る性能を達成した。補助タスク設定では中央値として42.3%のヒューマン正規化スコアを達成し、事前学習および教師なし熟達において顕著な向上を示した。

ABSTRACT

All-goals updating exploits the off-policy nature of Q-learning to update all possible goals an agent could have from each transition in the world, and was introduced into Reinforcement Learning (RL) by Kaelbling (1993). In prior work this was mostly explored in small-state RL problems that allowed tabular representations and where all possible goals could be explicitly enumerated and learned separately. In this paper we empirically explore 3 different extensions of the idea of updating many (instead of all) goals in the context of RL with deep neural networks (or DeepRL for short). First, in a direct adaptation of Kaelbling's approach we explore if many-goals updating can be used to achieve mastery in non-tabular visual-observation domains. Second, we explore whether many-goals updating can be used to pre-train a network to subsequently learn faster and better on a single main task of interest. Third, we explore whether many-goals updating can be used to provide auxiliary task updates in training a network to learn faster and better on a single main task of interest. We provide comparisons to baselines for each of the 3 extensions.

研究の動機と目的

深層ニューラルネットワークが、明示的な報酬設計や事前定義された主要タスクなしに、未観測の多数の目的に対して熟達を一般化できるかを調査すること。
教師なし多目的学習が、下流の主要RLタスクにおける性能向上と高速化を実現する有効な事前学習手法であるかを評価すること。
既存の補助手法（ピクセル制御や報酬予測など）と比較して、多目的更新を補助タスクとして用いることで、表現学習および主要タスク性能が向上するかを評価すること。
元々表形式RLに限定されていたKaelblingの全目的更新フレームワークを、目的集合が未知の視覚的連続観測空間における深層RLに拡張すること。
タスク固有の報酬関数なしに、オフポリシー多目的更新が、頑健で一般化可能な方策をもたらすかを検証すること。

提案手法

Kaelblingのオフポリシー全目的更新を深層RLに適応させるために、全目的に共通する1つのニューラルネットワークを共有し、1つのQネットワークで複数の目的の行動価値を推定する。
教師なし熟達のため、各経験軌道の最終フレームから得られるすべての目的のQ値を、外部報酬なしに更新する共有Qネットワークを訓練する。
事前学習のため、オフポリシー更新を用いて多数の目的でエージェントを事前訓練し、その後、オンポリシーA2Cを用いて主要タスクでファインチューニングする。
補助タスクのため、主なA2C目的と多目的Q学習目的を同時に最適化する。ここで目的は、サンプリングされた軌道の最終観測値に設定される。
リプレイバッファを用いてK個の最良エピソードを保存し、長さnの軌道をサンプリングして、アクタ・クリティックとオフポリシーQ学習目的の組み合わせにより多目的Qネットワークを更新する。
7種類のAtariゲームからなる検証セット上で、多目的損失の重みパラメータβを0.02にチューニングし、その後、全49ゲームに一様に適用する。

実験結果

リサーチクエスチョン

RQ1オフポリシー多目的更新を用いて訓練された深層ニューラルネットワークは、明示的な報酬や主要タスクなしに、視覚的RL環境で教師なし熟達を達成できるか？
RQ2多目的更新を用いた事前学習は、事前学習なしや報酬予測事前学習と比較して、主要RLタスクの下流性能を向上させるか？
RQ3多目的更新は、表現学習および主要タスク性能の向上を実現する有効な補助タスクとして機能するか？
RQ4Atari環境における最先端の補助タスク手法（ピクセル制御や報酬予測）と比較して、多目的学習の性能はどのように異なるか？
RQ5主タスク目的と多目的補助目的の間で、ハイパーパramータβの最適なバランスは何か？

主な発見

教師なし熟達設定では、外部報酬や主要タスクなしに、一般化のみで保持された目的セットに対して約60%の熟達度を達成した。
事前学習として用いた場合、多目的学習は、事前学習なしや報酬予測事前学習を大きく上回り、49種類のAtariゲームにおける中央値性能が著しく向上した。
補助タスク設定では、49種類のAtariゲームで中央値として42.3%のヒューマン正規化スコアを達成し、A2C（32.8%）、ピクセル制御（34.6%）、報酬予測（35.2%）のベースラインを上回った。
事前学習および補助タスク実験の両方で、多数のゲームで一貫した改善が見られ、より優れた表現学習が実現していることが示された。
主タスクと多目的目的の組み合わせに最適なハイパーパramータβは、7ゲームの検証セット上で0.02に特定され、残りの42ゲームに対しても良好に一般化された。
結果から、深層RLにおける多目的更新は、効果的な教師なし熟達、効率的な事前学習、強力な補助学習を可能にし、複数のベースラインを上回る顕著な実験的利得を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。