QUICK REVIEW

[論文レビュー] Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Tianhe Yu, Deirdre Quillen|arXiv (Cornell University)|Oct 24, 2019

Reinforcement Learning in Robotics参考文献 58被引用数 282

ひとこと要約

この論文は Meta-World を紹介します。Meta-World は多様な 50 のロボット操作タスクのオープンソースベンチマークで、マルチタスク強化学習およびメタ強化学習の評価を目的とし、現在の手法を経験的に比較して、タスクセット全体での一般化の課題を浮き彫りにします。

ABSTRACT

Meta-reinforcement learning algorithms can enable robots to acquire new skills much more quickly, by leveraging prior experience to learn how to learn. However, much of the current research on meta-reinforcement learning focuses on task distributions that are very narrow. For example, a commonly used meta-reinforcement learning benchmark uses different running velocities for a simulated robot as different tasks. When policies are meta-trained on such narrow task distributions, they cannot possibly generalize to more quickly acquire entirely new tasks. Therefore, if the aim of these methods is to enable faster acquisition of entirely new behaviors, we must evaluate them on task distributions that are sufficiently broad to enable generalization to new behaviors. In this paper, we propose an open-source simulated benchmark for meta-reinforcement learning and multi-task learning consisting of 50 distinct robotic manipulation tasks. Our aim is to make it possible to develop algorithms that generalize to accelerate the acquisition of entirely new, held-out tasks. We evaluate 7 state-of-the-art meta-reinforcement learning and multi-task learning algorithms on these tasks. Surprisingly, while each task and its variations (e.g., with different object positions) can be learned with reasonable success, these algorithms struggle to learn with multiple tasks at the same time, even with as few as ten distinct training tasks. Our analysis and open-source environments pave the way for future research in multi-task learning and meta-learning that can enable meaningful generalization, thereby unlocking the full potential of these methods.

研究の動機と目的

メタ-RLおよびマルチタスクRLにおいて、意味的に異なるタスクへ一般化をテストするベンチマークの必要性を動機づける。
共有構造を持つ広範な 50 課題の操作スイートを提案し、効率的な学習のための共通構造を提供する。
新しい、保持したテストタスクへ方法がどれくらい転移できるかを評価する評価プロトコルとベースラインを提供する。
多数のタスクを横断して学習し、新しいタスクへ一般化する際に現れる現在の手法の限界について洞察を提供する。

提案手法

Sawyer ロボット環境を共有する50の操作タスクの広範なタスク分布を定義する。
統一されたアクション空間（エンドエフェクタのデルタとグリッパートルク）と固定の39次元観測ベクトルを提供する。
学習と転移を可能にする一貫した構造を持つ、複数成分の報酬関数を適切に設計する。
パラメトリック（オブジェクト・目標位置）およびノンパラメトリックな区別を用いてタスクの変動を設計し、一般化の可能性を最大化する。
難易度を変えるメタRLとマルチタスクRLの評価プロトコルを確立する（ML1, MT1, MT10, MT50, ML10, ML45）。
Meta-World 上でマルチタスクRL（PPO、TRPO、SAC、Task Embeddings）およびメタRL（RL2、MAML、PEARL）からの複数のアルゴリズムをベンチマークして比較する。

実験結果

リサーチクエスチョン

RQ1トレーニング後に広範で構造化されたタスク分布で完全に新しいタスクへ、最先端のメタ-RL アルゴリズムは迅速に適応できるか。
RQ2多くの関連タスクにわたって単一のポリシーを学習するマルチタスクRL手法はどの程度効果的で、タスク/環境の数が増えると性能はどうスケールするか。
RQ3多様な操作タスクに対する代表的なメタ-RLとマルチタスクRLアルゴリズムの相対的長所と短所は何か。
RQ4現行の手法は Meta-Training タスクから保持されたテストタスクへどの程度一般化できるか。
RQ5ロボティクスにおける真の一般izable なメタ学習を目指す今後の開発を導くために、どのようなベンチマークと評価プロトコルが必要か。

主な発見

現在のメタ-RL 手法は、多様なタスクセットでメタ訓練した場合でも、明確に新しいタスクへ一般化するには限界がある。
Multi-task SAC は MT1/MT10/MT50 設定の中で最高の MT10 性能を達成するが、MT50 へのスケールには苦労する。
メタ-RL 手法の MAML および RL2 はある程度のメタ訓練と一般化能力を示す一方、PEARL は多くの設定で弱いパフォーマンスを示す。
ML10 および ML45 の全体では、メタ訓練時の性能は高いがメタテスト（一般化）性能は控えめで、最適化と一般化のギャップを示している。
このベンチマークは、メタ-RL およびマルチタスクRL における広範なタスク一般化を実現するためのアルゴリズム改善の余地が大きいことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。