QUICK REVIEW

[論文レビュー] Hardware Conditioned Policies for Multi-Robot Transfer Learning

Tao Chen, Adithyavairavan Murali|arXiv (Cornell University)|Nov 24, 2018

Adversarial Robustness in Machine Learning被引用数 33

ひとこと要約

本稿では、ロボットのハードウェアを学習または明示的なベクトル表現で条件づけることで、1つのユニバーサルなポリシーを訓練するHardware Conditioned Policies (HCP) を提案する。これにより、新規ロボットへのゼロショット転送と、サンプル効率の良いファインチューニングが可能となる。主な貢献は、バックプロパゲーションによる暗黙的なハードウェア埋め込みが、真値の運動学的・動力学的パラメータを使用するモデルと同等の性能を達成できることであり、これにより、ハードウェア固有の再訓練なしに、多様なロボット間での強力な転送が可能となる。

ABSTRACT

Deep reinforcement learning could be used to learn dexterous robotic policies but it is challenging to transfer them to new robots with vastly different hardware properties. It is also prohibitively expensive to learn a new policy from scratch for each robot hardware due to the high sample complexity of modern state-of-the-art algorithms. We propose a novel approach called extit{Hardware Conditioned Policies} where we train a universal policy conditioned on a vector representation of robot hardware. We considered robots in simulation with varied dynamics, kinematic structure, kinematic lengths and degrees-of-freedom. First, we use the kinematic structure directly as the hardware encoding and show great zero-shot transfer to completely novel robots not seen during training. For robots with lower zero-shot success rate, we also demonstrate that fine-tuning the policy network is significantly more sample-efficient than training a model from scratch. In tasks where knowing the agent dynamics is important for success, we learn an embedding for robot hardware and show that policies conditioned on the encoding of hardware tend to generalize and transfer well. The code and videos are available on the project webpage: https://sites.google.com/view/robot-transfer-hcp.

研究の動機と目的

ロボット分野における深層強化学習ポリシーの高いサンプル複雑性とハードウェア依存性を解決すること。
異なる運動学的構造、自由度、動力学的特性を持つロボット間で、再訓練なしにポリシーを転送できることを実現すること。
コンactなハードウェア表現に条件づけることで、多様なロボットに一般化するユニバーサルなポリシーを開発すること。
明示的な測定なしに、暗黙のハードウェア埋め込みが、本質的な動力学的・運動学的情報を捉えることができることを示すこと。
新しいロボットのハードウェア埋め込みを用いたファインチューニングが、初期から訓練する場合と比較して、顕著にサンプル効率が向上することを示すこと。

提案手法

ポリシーは、現在の状態とハードウェアベクトル表現 $v_h$ の両方の関数として定式化され、ハードウェアに条件づけた意思決定が可能になる。
明示的符号化 (HCP-E) では、ロボットの運動学的構造を直接 $v_h$ として用い、新規ロボットへのゼロショット転送を可能にする。
暗黙的符号化 (HCP-I) では、経験から得た低次元の埋め込みをニューラルネットワークが学習し、動力学的・運動学的特性を暗黙的に捉える。
ハードウェア埋め込みは、ポリシー学習中にバックプロパゲーションを用いてエンドツーエンドで訓練され、異なるロボットタイプ間で共有エンコーダーが使用される。
ファインチューニングは、限られた相互作用データを用いて、新しいロボットのポリシーネットワークとハードウェア埋め込みの両方を更新することで実施される。
本手法は、PPO を下位の強化学習アルゴリズムとして用い、異なる胴体質量、リンク長、DOFs を持つ多様なロボットを用いたシミュレーション環境で評価されている。

実験結果

リサーチクエスチョン

RQ1顕著に異なる運動学的・動力学的特性を持つロボット間で、1つのユニバーサルなポリシーを学習し、一般化させることは可能か？
RQ2学習されたハードウェア埋め込みに条件づけることで、トレーニング中に見られなかったロボットに対してもゼロショット転送が可能になるか？
RQ3明示的な運動学的符号化と比較して、暗黙的ハードウェア埋め込みは、転送性能とサンプル効率の面でどのように異なるか？
RQ4新しいロボットのハードウェア埋め込みを用いたファインチューニングは、初期から訓練する場合と比較して、顕著にサンプル複雑性を低減できるか？
RQ5学習されたハードウェア埋め込み空間は滑らかで意味的に意味のあるものであり、類似したロボットがクラスタリングされるか？

主な発見

HCP-I（暗黙的ハードウェア埋め込みを学習）は、真値の運動学的・動力学的パラメータを使用する HCP-E+Dyn と同等の性能を達成しており、モデルが本質的なハードウェア特性を暗黙的に捉えていることを示している。
HCP-I は、ヴァナイルな PPO と比較して顕著に優れていることから、ハードウェア条件づけが学習効率とサンプル複雑性の両面で顕著に向上させることを示している。
HCP-E を用いたゼロショット転送は、異なる運動学的構造を持つ新規ロボットにおいても高い成功率を達成しており、ファインチューニングなしで強力な一般化が可能であることを示している。
事前学習済み重みを用いた HCP-I モデルのファインチューニングは、初期から訓練する場合と比較して、新規ロボットでの学習が著しく高速化され、サンプル効率の向上が確認された。
学習されたハードウェア埋め込みは滑らかで連続的な空間を形成しており、可視化結果から、類似した胴体質量を持つロボットがクラスタリングされていることから、意味的で構造的な表現であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。