Skip to main content
QUICK REVIEW

[論文レビュー] DisCoRL: Continual Reinforcement Learning via Policy Distillation

Kalifou René Traoré, Hugo Caselles-Dupré|arXiv (Cornell University)|Jul 11, 2019
Domain Adaptation and Few-Shot Learning参考文献 21被引用数 35
ひとこと要約

DisCoRLは、状態表現学習とポリシー蒸留を組み合わせて、テスト時にタスクラベルを使わずに連続タスクに跨る継続的強化学習を行い、シミュレーションで評価され、実世界へ転送される。

ABSTRACT

In multi-task reinforcement learning there are two main challenges: at training time, the ability to learn different policies with a single model; at test time, inferring which of those policies applying without an external signal. In the case of continual reinforcement learning a third challenge arises: learning tasks sequentially without forgetting the previous ones. In this paper, we tackle these challenges by proposing DisCoRL, an approach combining state representation learning and policy distillation. We experiment on a sequence of three simulated 2D navigation tasks with a 3 wheel omni-directional robot. Moreover, we tested our approach's robustness by transferring the final policy into a real life setting. The policy can solve all tasks and automatically infer which one to run.

研究の動機と目的

  • テスト時にタスクラベルに依存せず、忘れずにスキルを連続的に学習させる自律エージェントを動機づける。
  • 状態表現学習とポリシー蒸留を継続的な強化学習のために統合するパイプラインを開発する。
  • 蒸留されたポリシーが複数のタスクを解決し、実世界のロボット設定へ転送できることを示す。

提案手法

  • Env_iでランダムポリシーを用いて収集したデータから、タスク固有の状態表現エンコーダE_iをSRLで学習する。
  • 学習した状態空間でRLを用いてポリシーpi_iを訓練する。
  • 軌跡に沿って pi_i から観測と行動確率を記録して蒸留データセット D_pi_i を作成する。
  • 過去の蒸留データセットと D_pi_i を結合して、教師を模倣するよう学生を訓練し、pi_i を共有ポリシー pi_d:(1..i) に蒸留する。
  • 蒸留されたポリシーを1つのポリシー pi_d:1..n に統合し、タスク指示子なしで適切な行動を選択できるようにする。
  • 最終的な蒸留ポリシーをシミュレーションで評価し、SRLとドメインチェンジを用いたドメインランダム化で実生活へ転送する。

実験結果

リサーチクエスチョン

  • RQ1テスト時にタスクラベルなしで、単一の蒸留ポリシーが複数の連続的な RL タスクを実行できるか?
  • RQ2SRLとポリシー蒸留を組み合わせることで、継続的なRL設定におけるタスク間の忘却を防げるか?
  • RQ3蒸留ポリシーがシミュレーションからドメインランダム化を用いた実ロボットへどの程度転送できるか?

主な発見

  • このパイプラインは、シミュレーションで連続する3つの2Dナビゲーションタスクを継続的に学習し、最終ポリシーを実ロボットへ転送する。
  • ポリシー蒸留のメモリは、すべての教師モデルを保存する代わりにデータ(D_pi_i)のみを使用し、スケーラブルな継続的RLを可能にする。
  • 各タスクの RL ポリシー pi_i は効率的に学習され、その後、ポリシー学習に比べて控えめな計算コストで単一ポリシーへ蒸留される。
  • この手法はテスト時にタスクラベルを必要とせず、現在のタスクを推定する視覚的手掛かりに依存する。
  • 実験にはシムからリアルへの転送を助けるドメインランダム化が含まれ、現実性のギャップに対する頑健性を示す。
  • 各タスクの蒸留データセットには約1万サンプルを含み、全 RL 学習に比べて蒸留を高速化できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。