QUICK REVIEW

[論文レビュー] Task-Embedded Control Networks for Few-Shot Imitation Learning

Stephen James, Michael Bloesch|arXiv (Cornell University)|Oct 8, 2018

Domain Adaptation and Few-Shot Learning被引用数 35

ひとこと要約

本論文では、視覚的観測から示されたタスクのコンactで特徴的な表現を生成するタスク埋め込みネットワークを用いる、メタ模倣学習フレームワークであるタスク埋め込み制御ネットワーク（TecNets）を提案する。この手法により、タスク埋め込みを制御ネットワークに条件付け、少数ショットの視覚的モータ制御方策学習を可能にし、実世界の配置タスクにおいてシミュレーションから実世界への転送後、追加の実世界ファインチューニングなしで72.97%のワンショット成功率を達成した。

ABSTRACT

Much like humans, robots should have the ability to leverage knowledge from previously learned tasks in order to learn new tasks quickly in new and unfamiliar environments. Despite this, most robot learning approaches have focused on learning a single task, from scratch, with a limited notion of generalisation, and no way of leveraging the knowledge to learn other tasks more efficiently. One possible solution is meta-learning, but many of the related approaches are limited in their ability to scale to a large number of tasks and to learn further tasks without forgetting previously learned ones. With this in mind, we introduce Task-Embedded Control Networks, which employ ideas from metric learning in order to create a task embedding that can be used by a robot to learn new tasks from one or more demonstrations. In the area of visually-guided manipulation, we present simulation results in which we surpass the performance of a state-of-the-art method when using only visual information from each demonstration. Additionally, we demonstrate that our approach can also be used in conjunction with domain randomisation to train our few-shot learning ability in simulation and then deploy in the real world without any additional training. Once deployed, the robot can learn new tasks from a single real-world demonstration.

研究の動機と目的

タスク固有の適応後に、以前に学習したタスクを忘れる、またはメタ学習能力を失うという、模倣学習における継続的少数ショット学習の欠如に対処する。
タスク固有の再トレーニングを必要とせず、1つまたは数個の視覚的示範のみを用いて、新しい操作タスクのデータ効率の良い学習を可能にする。
制限のない数のタスクを学習可能で、災難的忘却を引き起こさない、スケーラブルなメタ学習フレームワークを開発する。
完全にシミュレーション内でトレーニングされた少数ショット模倣方策を、実世界にデプロイ後、実世界でのファインチューニングをゼロで行うことで、シミュレーションから実世界への転送を可能にする。
エンドツーエンドの視覚的モータ制御を実現するため、タスク埋め込みと制御方策を同時に最適化する統合アーキテクチャを構築する。

提案手法

1つの示範のRGB観測を、コンパクトでタスク固有の埋め込み（「文」として呼ばれる）に変換するタスク埋め込みネットワークを用いる。
現在の観測と静的タスク埋め込みの両方に条件付けられた制御ネットワークを用い、クローズドループで行動を生成する。
新しいタスクへの高速適応を可能にするために、メタ学習目的関数を用いてタスク埋め込みネットワークと制御ネットワークを同時にトレーニングする。
シミュレーショントレーニング中にドメインランダマイゼーションを適用し、耐性を高め、シミュレーションから実世界への転送に成功させる。
示範からのみ視覚的観測（RGB画像）を用い、状態や行動ラベルに依存しない。
類似したタスク（例：類似した容器への配置）が潜在空間内で近接して埋め込まれるように、メトリック学習の原則を活用する。

実験結果

リサーチクエスチョン

RQ11つのニューラルネットワークアーキテクチャが、多数の多様な操作タスクを学習・保持し、忘却を起こさずに知識を維持できるか？
RQ2タスク埋め込み機構により、視覚的類似性に基づいて、未観測の新しいタスクに対するゼロショットまたは少数ショット一般化が可能か？
RQ3完全にシミュレーション内でトレーニングされた少数ショット模倣方策が、実世界にデプロイされ、実世界でのファインチューニングなしに成功するか？
RQ4本手法は、視覚的示範のみを用いた場合、最先端のメタ模倣学習ベースラインを上回るか？
RQ5本手法は、物体の形状や容器の種類が異なる実世界タスクに一般化可能か？特に、特定の物体クラス（例：ボウル）に限定されたトレーニングデータにおいては？

主な発見

TecNetsは、シミュレーションでトレーニングし、実世界にデプロイした後、追加の実世界ファインチューニングなしで、実世界の配置タスクにおいて72.97%のワンショット成功率を達成した。
本手法は、視覚的情報のみを用いた場合、シミュレーションで最先端のMILベースラインを上回り、ワンショットおよび少数ショット設定の両方で高い成功率を達成した。
モデルは制限のない数のタスクに対して、継続的学習中に災難的忘却を起こさず、少数ショット学習能力を維持した。
ドメインランダマイゼーションの適用により、シミュレーションから実世界への転送に成功し、トレーニング時にボウルのみを用いても、実世界のカップ、プレート、鍋などの物体に一般化した。
失敗事例の主な原因は、物体の形状の違い（例：カップやプレート）に起因しており、モデルの性能が物体の幾何学的分布シフトに敏感であることが示唆された。
学習されたタスク埋め込み空間には意味的な構造が存在し、類似したタスク（例：類似した容器への配置）が、補足資料に図示されたように、密にクラスタリングされている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。