QUICK REVIEW

[論文レビュー] Kickstarting Deep Reinforcement Learning

Simon Schmitt, Jonathan J. Hudson|arXiv (Cornell University)|Mar 10, 2018

Reinforcement Learning in Robotics参考文献 17被引用数 44

ひとこと要約

本論文は Kickstarting を紹介します。これは1つ以上の事前学習済み教師エージェントを用いて新しい学生エージェントの訓練を導くフレームワークで、強化学習と教師のポリシークロスエントロピー損失を組み合わせ、それが徐々に減衰して学生が教師を上回るようにします。DMLab-30 ベンチマークで特に複数の教師を使った場合にデータ効率の良いスピードアップを実証します。

ABSTRACT

We present a method for using previously-trained 'teacher' agents to kickstart the training of a new 'student' agent. To this end, we leverage ideas from policy distillation and population based training. Our method places no constraints on the architecture of the teacher or student agents, and it regulates itself to allow the students to surpass their teachers in performance. We show that, on a challenging and computationally-intensive multi-task benchmark (DMLab-30), kickstarted training improves the data efficiency of new agents, making it significantly easier to iterate on their design. We also show that the same kickstarting pipeline can allow a single student agent to leverage multiple 'expert' teachers which specialize on individual tasks. In this setting kickstarting yields surprisingly large gains, with the kickstarted agent matching the performance of an agent trained from scratch in almost 10x fewer steps, and surpassing its final performance by 42 percent. Kickstarting is conceptually simple and can easily be incorporated into reinforcement learning experiments.

研究の動機と目的

事前に学習済みのエキスパートを活用して新しい強化学習エージェントの訓練を迅速化し、データ要件を低減する動機づけ。
任意の教師/学生アーキテクチャを許容する柔軟な Kickstarting フレームワークの開発。
環境報酬へ徐々に重心を移すことで、学生が教師の性能を超えるようにする。
タスク固有の専門知識を持つ複数の教師へ拡張し、多様なマルチタスク・スイートで評価する。

提案手法

教師と学生のポリシー間の補助的なクロスエントロピー損失とともに、RL目的を組み合わせる。
教師の監督をスケールする時間変化的重み lambda_k を導入する。
適用可能な場合にオフポリシー補正（V-trace）を用いて、方策ベースのRL（A3C/IMPALA風）にこの手法を組み込む。
オンラインで Population Based Training (PBT) により lambda_k その他のハイパーパラメータを最適化することも可能。
複数教師設定では、タスク固有の専門家を用い、蒸留ウェイトを因数分解して複数の監督信号を管理する。
単一教師および複数教師のシナリオを提供し、ゼロからの訓練および純粋な蒸留と比較する。

実験結果

リサーチクエスチョン

RQ1事前学習済みの教師を用いた Kickstarting は、アーキテクチャを制約せずに深層強化学習の学習を加速できるのか？
RQ2教師による監督を受けつつ学生が報酬を最適化することを許すことで、教師の性能を超えることが可能か？
RQ3マルチタスクRLにおける単一教師と複数教師の利点は何か？
RQ4データ効率と最終性能を最大化するために、教師の導案の影響（lambda_k）をどのようにスケジュールすべきか？

主な発見

フレーム別スコア	0.5B	1.0B	2.0B	10.0B	30.0	40.0	50.0
Large kickstarted	37.4	39.4	42.4	56.9	0.13B	1.39B	5.31B
Large from scratch	24.1	31.1	37.5	51.9	0.99B	3.26B	8.14B

難易度の高いマルチタスクベンチマークで単一教師を用いた場合、Kickstarting は最大で 1.5x のスピードアップを達成する。
Kickstarting の下で学生は急速に教師を上回ることがある。
複数のタスク固有の専門家教師を用いると、Kickstarted エージェントは scratch で訓練した性能に約9.58倍少ないステップで到達し、最終的な教師の性能を42.2%上回る。
PBT による lambda_k のスケジューリングは、手動で設計された最良スケジュールと同等の結果を達成でき、手動のハイパーパラメータ調整の必要性を減らす。
Kickstarting はより大きな教師を用いるとより良い指導効果を提供する。長期的な訓練では蒸留だけでは Kickstarting に劣る。
複数の専門家を組み合わせることで、関連タスク間の転移を可能にする（例：レーザータグの派生タスクとナビゲーション）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。