Skip to main content
QUICK REVIEW

[論文レビュー] Progressive Reinforcement Learning with Distillation for Multi-Skilled Motion Control

Glen Berseth, Cheng Xie|arXiv (Cornell University)|Feb 13, 2018
Reinforcement Learning in Robotics参考文献 18被引用数 22
ひとこと要約

本稿では、連続的制御タスクにおける複数の運動スキルを段階的に学習・統合するために、蒸留と転移学習を用いたプログレッシブ強化学習フレームワーク、PLAIDを提案する。ポリシー蒸留と入力インジェクションを活用することで、既存の能力を保持したまま効率的なスキル習得が可能となり、多様な地形を走破するシミュレーテッド二足歩行タスクにおいて、ベースラインを上回る性能を示した。

ABSTRACT

Deep reinforcement learning has demonstrated increasing capabilities for continuous control problems, including agents that can move with skill and agility through their environment. An open problem in this setting is that of developing good strategies for integrating or merging policies for multiple skills, where each individual skill is a specialist in a specific skill and its associated state distribution. We extend policy distillation methods to the continuous action setting and leverage this technique to combine expert policies, as evaluated in the domain of simulated bipedal locomotion across different classes of terrain. We also introduce an input injection method for augmenting an existing policy network to exploit new input features. Lastly, our method uses transfer learning to assist in the efficient acquisition of new skills. The combination of these methods allows a policy to be incrementally augmented with new skills. We compare our progressive learning and integration via distillation (PLAID) method against three alternative baselines.

研究の動機と目的

  • 既存ポリシーに新たな運動スキルを段階的に学習・統合する際の継続的忘却(catastrophic forgetting)を回避する課題に対処すること。
  • 連続的アクション空間における新しいスキルの学習を加速するために、以前に学習したスキルからの知識転送を可能にする手法を開発すること。
  • 入力インジェクションを通じてスムーズに新しいスキルを統合し、再訓練なしに追加のセンサ入力を活用できるようにポリシーを拡張すること。
  • 複雑な連続的制御タスク(多様な地形を走破する二足歩行)において、スケーラビリティと効率性を実証すること。
  • 階層的スキル分解を回避し、複数のスキルを統合する単一のディープネットワークを用いる継続的学習フレームワークを提供すること。

提案手法

  • 教師ポリシーの行動分布を教師付き学習で回帰することで、連続的アクション空間へのポリシー蒸留の拡張を実現する。
  • 複数の教師ポリシーの出力分布を平均二乗誤差損失で一致させるように、単一のディープニューラルネットワークを学生ポリシーとして使用する。
  • 既存ポリシーに新しい入力特徴(例:地形種別)を追加するための入力インジェクションを導入し、ネットワーク全体の再訓練なしに拡張を可能にする。
  • 以前に訓練済みのポリシーからの特徴を初期化として用いることで、新しいポリシーのアクター・クリティックネットワークに転移学習を適用し、収束を加速する。
  • 蒸留中にデータ効率性とポリシー一般化を向上させるために、DAGGER風の学習を採用する。
  • 新しいスキルを段階的に1つずつ学習・統合するプログレッシブなトレーニングスケジュールを採用し、継続的な蒸留により過去のスキルのパフォーマンスを維持する。

実験結果

リサーチクエスチョン

  • RQ1マルチスキル運動制御に向け、連続的アクション空間へのポリシー蒸留が効果的に拡張可能か?
  • RQ2蒸留による段階的統合は、すべてのスキルを同時に学習するか、統合なしに逐次学習する方法と比較して、どのように異なるか?
  • RQ3以前のポリシーからの転移学習が、新しい運動スキルの習得をどの程度加速するか?
  • RQ4入力インジェクションにより、追加のセンサ入力を用いて新しいスキルを学習可能でありながら、既存スキルのパフォーマンスが劣化しないか?
  • RQ5段階的スキル習得中に継続的忘却をどの程度効果的に緩和できるか?

主な発見

  • PLAIDは、すべてのスキルを同時に学習するか、逐次に学習するベースラインを上回り、多様な地形走破タスクにおいて優れたサンプル効率性とパフォーマンスを示した。
  • 転移学習は、新しいタスクが以前に学習したタスクの状態空間領域を共有する場合に特に、新しいスキルの学習を顕著に加速した。
  • 入力インジェクションは、新しい入力特徴(例:地形種別)を活用できるようにしながら、既存スキルのパフォーマンスが劣化しないことを成功裏に実証した。
  • 蒸留により、複数の新しいスキルが追加された後でさえ、すべてのスキルにおける専門家のパフォーマンスが効果的に保持された。
  • 新しいスキル習得中に、以前に学習したスキルのパフォーマンスが安定したまま維持されたことから、継続的忘却の効果的な緩和が示された。
  • 連続的アクション空間における蒸留に平均二乗誤差を用いることは有効であるが、本稿ではKullback-Leiblerダイバージェンスや重み付き蒸留を用いることでさらなる性能向上が可能であると指摘している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。