Skip to main content
QUICK REVIEW

[論文レビュー] Self-Supervised Policy Adaptation during Deployment

Nicklas Hansen, Rishabh Jangir|arXiv (Cornell University)|Jul 8, 2020
Reinforcement Learning in Robotics参考文献 76被引用数 58
ひとこと要約

PADは事前学習済みのポリシーがデプロイ時に報酬なしで自己监督的適応を継続できるようにし、シミュレーションと実ロボットでの未見の環境変化に対する一般化を改善する。

ABSTRACT

In most real world scenarios, a policy trained by reinforcement learning in one environment needs to be deployed in another, potentially quite different environment. However, generalization across different environments is known to be hard. A natural solution would be to keep training after deployment in the new environment, but this cannot be done if the new environment offers no reward signal. Our work explores the use of self-supervision to allow the policy to continue training after deployment without using any rewards. While previous methods explicitly anticipate changes in the new environment, we assume no prior knowledge of those changes yet still obtain significant improvements. Empirical evaluations are performed on diverse simulation environments from DeepMind Control suite and ViZDoom, as well as real robotic manipulation tasks in continuously changing environments, taking observations from an uncalibrated camera. Our method improves generalization in 31 out of 36 environments across various tasks and outperforms domain randomization on a majority of environments.

研究の動機と目的

  • 未知の環境へRLエージェントをデプロイする際の頑健なポリシー一般化を動機付ける。
  • 報酬なしでデプロイ時に動作する自己監督型適応信号を提案する。
  • 多様なシミュレート環境と実世界タスクを横断した一般化の改善を実証する。

提案手法

  • ポリシーネットワークを特徴抽出器とタスクヘッドに分割して表現を共有する。
  • 中間特徴上で補助的な自己監督タスク(逆動力学または回転予測)を使用する。
  • 訓練時にRL目的と自己監督目的の双方で学習する;適応時には自己監督のみでデプロイする。
  • 新しい観測を用いてテスト時に自己監督ヘッドと特徴抽出器をオンライン更新する。

実験結果

リサーチクエスチョン

  • RQ1デプロイ時に報酬信号がない状態で自己監督がポリシー適応を可能にするか?
  • RQ2オンライン自己監督適応は視覚ベースのRLにおける未知の環境変化への一般化を改善するか?
  • RQ3どの自己監督タスク(逆動力学、回転、CURL)がデプロイ時の適応を最も支援するか?
  • RQ4多様なシミュレートドメインと実ロボットタスクにおけるPADの性能はどうか?
  • RQ5オンライン学習とオフライン学習のPAD効果への影響はどうか?

主な発見

  • PADは22のDMControlテスト環境のうち19環境で一般化を改善し、すべてのCRLMazeテスト環境で改善する。
  • PADはタスクと設定全般でドメインランダム化を上回ることが多い。
  • 自己監督として逆動力学は運動制御タスクでより一貫した利得を提供し、回転はナビゲーションタスクの場面理解に役立つ。
  • デプロイ時のオンライン学習は適応を大幅に高め、オフラインバリアントは利得が減少する。
  • PADはカメラ入力がキャリブレーションされていない複数環境でKinovaロボットへのSim2Real転送を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。