QUICK REVIEW

[論文レビュー] Loss is its own Reward: Self-Supervision for Reinforcement Learning

Evan Shelhamer, Parsa Mahmoudieh|arXiv (Cornell University)|Dec 21, 2016

Reinforcement Learning in Robotics参考文献 24被引用数 91

ひとこと要約

本論文では、状態のダイナミクス予測、逆運動ダイナミクス、後続状態予測といった自己教師付き補助損失を用いることで、深層強化学習における表現学習を改善することを提案する。外在的報酬がなくてもよい遷移をすべて活用することで、データ効率性とポリシー性能が向上し、自己教師付き事前学習を用いることで、1.4倍速い収束速度で最高のAtari報酬の95％を達成する。

ABSTRACT

Reinforcement learning optimizes policies for expected cumulative reward. Need the supervision be so narrow? Reward is delayed and sparse for many tasks, making it a difficult and impoverished signal for end-to-end optimization. To augment reward, we consider a range of self-supervised tasks that incorporate states, actions, and successors to provide auxiliary losses. These losses offer ubiquitous and instantaneous supervision for representation learning even in the absence of reward. While current results show that learning from reward alone is feasible, pure reinforcement learning methods are constrained by computational and data efficiency issues that can be remedied by auxiliary losses. Self-supervised pre-training and joint optimization improve the data efficiency and policy returns of end-to-end reinforcement learning.

研究の動機と目的

エンドツーエンド強化学習におけるデータ効率性と表現学習のボトル neck を解決すること。
環境遷移から得られる普遍的で即時の監視信号を統合することで、ポリシー最適化を改善すること。
学習済み表現からの迅速なポリシー回復を可能とし、表現学習が主要なボトル neck であることを示すこと。
特権情報やタスク固有のアノテーションを必要としない自己教師付きタスクを開発すること。
自己教師付きの事前学習と共同最適化の影響を、ポリシー性能に与える影響を比較すること。

提案手法

状態、行動、報酬、および後続遷移に基づく判別型自己教師付きタスクを導入：前向きダイナミクス、逆運動ダイナミクス、および後続表現予測。
RLタスクと自己教師付きタスクの両方に共通の表現バックボーンを用い、マルチタスク学習を可能にする。
自己教師付き事前学習でポリシーネットワークを初期化し、その後RL損失と共同最適化を実行する。
RLタスクと補助タスクの両方で共有された特徴エンコーダを備えた残差ネットワークアーキテクチャを採用する。
標準的な方策勾配法（例：A3C）を用い、訓練中に自己教師付き損失からの勾配を補助的に用いる。
生成モデルを必要としないように、生成的ではなく判別型の補助損失を設計する。

実験結果

リサーチクエスチョン

RQ1自己教師付き補助損失は、深層強化学習におけるデータ効率性とポリシー報酬を向上させることができるか？
RQ2自己教師付きタスクでの事前学習は、初期からエンドツーエンドで学習するのと比較して、ポリシー学習の加速にどの程度寄与するか？
RQ3自己教師付きとRLの目的関数を共同最適化することは、事前学習のみと比較してどのように異なるか？
RQ4ポリシーと価値ヘッドを削除した「首なしエージェント」は、迅速に再訓練可能か？これは学習済み表現の質を示唆する。
RQ5環境のアンビエントな信号から得られる自己教師付き損失は、報酬のみに依存する学習を上回る表現学習を促進するか？

主な発見

自己教師付き事前学習により、Atariゲームで平均的に1.4倍速い収束速度で、最高報酬の95％に到達できる。
首なしエージェントからのポリシー回復は、初期学習よりも顕著に速く、表現学習が主なボトル neck であることを示唆する。
自己教師付きとRLの目的関数を共同最適化することは、事前学習のみよりもさらにデータ効率性を向上させる。
スパarsな報酬や遅延報酬が存在しない状況でも、すべての遷移を監視に活用することでポリシー性能が向上する。
前向きおよび逆運動ダイナミクス予測といった自己教師付き損失は、表現学習に効果的なインダクティブバイアスを提供する。
このアプローチは環境間で一般化可能であり、特権情報やタスク固有のアノテーションを必要としない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。