QUICK REVIEW

[論文レビュー] Reinforcement Learning with Unsupervised Auxiliary Tasks

Max Jaderberg, Volodymyr Mnih|arXiv (Cornell University)|Nov 16, 2016

Reinforcement Learning in Robotics被引用数 271

ひとこと要約

UNREAL は無監督の補助タスク（ピクセル制御、報酬予測、価値関数リプレイ）を A3C に追加して、よりリッチな表現を学習し、データ効率と Atari および Labyrinth での性能を向上させる。

ABSTRACT

Deep reinforcement learning agents have achieved state-of-the-art results by directly maximising cumulative reward. However, environments contain a much wider variety of possible training signals. In this paper, we introduce an agent that also maximises many other pseudo-reward functions simultaneously by reinforcement learning. All of these tasks share a common representation that, like unsupervised learning, continues to develop in the absence of extrinsic rewards. We also introduce a novel mechanism for focusing this representation upon extrinsic rewards, so that learning can rapidly adapt to the most relevant aspects of the actual task. Our agent significantly outperforms the previous state-of-the-art on Atari, averaging 880\% expert human performance, and a challenging suite of first-person, three-dimensional \emph{Labyrinth} tasks leading to a mean speedup in learning of 10$\times$ and averaging 87\% expert human performance on Labyrinth.

研究の動機と目的

外部報酬だけでなく補助的な疑似報酬から学ぶことで、学習をより速く、より堅牢に促進する。
共有表現（CNN-LSTM）を開発し、基盤タスクと補助タスクの両方に有益とする。
報酬に焦点を当てた補助目的を通じて、抽出された表現を外部報酬へと偏らせる。
経験リプレイを活用して価値反復を加速し、オフポリシー補助学習を支援する。

提案手法

補助的な制御タスク（ピクセル制御および特徴制御）を追加の疑似報酬関数として導入し、ベースエージェントとパラメータを共有する別個の補助ポリシーを訓練する。
補助報酬タスク（報酬予測）を追加して、ポリシーをバイアスすることなく、直近の報酬を予測する特徴学習を偏向させる。
価値関数リプレイを組み込み、リプレイデータに対してオフポリシーの価値更新を実行する。
報酬予測のために報酬イベントを過剰サンプリングするようスキューイングリプレイを用い、オフポリシー補助タスクの安定性を維持する。
ロスを UNREAL 目的関数に統合する：L_UNREAL = L_A3C + lambda_VR L_VR + lambda_PC sum_c L_Q^(c) + lambda_RP L_RP（式 2）。
ベースタスクと補助タスクで CNN-LSTM 表現を共有し、オフポリシー補助タスク更新を伴うオンポリシー A3C 更新を適用する。

実験結果

リサーチクエスチョン

RQ1補助制御および報酬タスクを追加することで、難易度の高い視覚環境でのサンプル効率は、素の A3C より改善されるか。
RQ2補助タスクはハイパーパラメータ（学習率、エントロピーコスト）に対してベースラインより堅牢か。
RQ3補助タスクは標準の無監督再構成法を超える最終的な性能を3D Labyrinth および Atari 系で示すか。
RQ4タスク間で共通表現を共有することは、学習速度と最終的なポリシー品質にどのように影響するか。

主な発見

UNREAL は Labyrinth で人間標準スコアの87%を達成（A3C の 54% に対して）。
UNREAL は Labyrinth で学習の平均速度を 10 倍向上させ、特定のレベルでは最大 18 倍に達する。
Atari では、UNREAL は以前の最先端を上回り、平均 880% の人間標準性能、中央値 250% を達成。
UNREAL はタスク間で A3C よりハイパーパラメータ設定の堅牢性が高い。
補助タスク、特にピクセル制御と報酬予測は、データ効率と最終的な性能を、ベースラインおよび再構成ベースのアプローチと比較して著しく改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。