QUICK REVIEW

[論文レビュー] Learning Invariant Feature Spaces to Transfer Skills with Reinforcement Learning

Abhishek Gupta, Coline Devin|arXiv (Cornell University)|Mar 8, 2017

Reinforcement Learning in Robotics参考文献 21被引用数 117

ひとこと要約

論文は、代理タスクと深い埋め込みを用いて形態学的に異なるエージェント間でスキルを転送するための不変特徴空間を学習し、共有特徴空間と形作られた報酬を介したスキル転送を可能にする。

ABSTRACT

People can learn a wide range of tasks from their own experience, but can also learn from observing other creatures. This can accelerate acquisition of new skills even when the observed agent differs substantially from the learning agent in terms of morphology. In this paper, we examine how reinforcement learning algorithms can transfer knowledge between morphologically different agents (e.g., different robots). We introduce a problem formulation where two agents are tasked with learning multiple skills by sharing information. Our method uses the skills that were learned by both agents to train invariant feature spaces that can then be used to transfer other skills from one agent to another. The process of learning these invariant feature spaces can be viewed as a kind of "analogy making", or implicit learning of partial correspondences between two distinct domains. We evaluate our transfer learning algorithm in two simulated robotic manipulation skills, and illustrate that we can transfer knowledge between simulated robotic arms with different numbers of links, as well as simulated arms with different actuation mechanisms, where one robot is torque-driven while the other is tendon-driven.

研究の動機と目的

異なる形態を持つエージェント間での転移学習を動機づけ、スキル獲得を加速する。
共通の代理スキルを用いて、2つのエージェントの不変特徴空間を構成する。
領域間の特定不能対応を学習するニューラル埋め込みと整合化アプローチを開発する。
複数のロボットタスクにおいて、不変空間を用いた強化学習によりスキルの転送を実証する。

提案手法

エージェント固有の状態を共有空間へ写像する共通潜在特徴空間 f と g を定義する。
両エージェントが学習する代理タスクを用いてドメイン間の対応関係 (P) を得る。
ペアになった代理状態に対して類似性（対比）損失で f と g を学習する: L_sim = ||f(s_Sp) - g(s_Tp)||^2。
埋め込みが情報を保持するように自己符号化器デコーダを追加する: L_AE_S および L_AE_T。
DTWベースまたは時間ベースの整列を用いて対応を推定し、埋め込みを反復的に洗練させる（EM風）。
転送時には、ターゲットエージェントの報酬に転送項 r_transfer = alpha * ||f(s_Sr) - g(s_Tr)||^2 を加え、学習を指導する。）

実験結果

リサーチクエスチョン

RQ1異なる形態を持つ2つのエージェントは、共通の代理スキルから共有された不変特徴空間を学習できるか？
RQ2エピソードタスクが時間歪みや速度差を許す場合、ドメイン間で状態をどう揃えるか？
RQ3不変空間での学習は、新しいタスクに対する転送効率を、直接マッピングや転送なしと比べて改善するか？

主な発見

埋め込みベースの転送は、リンク数が異なり、作動機構が異なるロボット間で知識を共有可能にする。
複数の代理タスクを用いると、単一の代理タスクより転送性能が向上する。
EM風のアライメント（DTW）は、単純な時間ベースのアライメントより対応関係を改善し、転送を強化する。
直接的な状態間マッピングは、転送のための共通埋め込み空間を学習するより劣る。
腱駆動とトルク駆動のアーム転送では、埋め込みベースのアプローチが学習を速くし、限られた相互作用でも高い成功率に達する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。