QUICK REVIEW

[論文レビュー] panda-gym: Open-source goal-conditioned environments for robotic learning

Quentin Gallouédec, Nicolas Cazin|arXiv (Cornell University)|Jun 25, 2021

Reinforcement Learning in Robotics被引用数 37

ひとこと要約

panda-gym は OpenAI Gym 互換の PyBullet ベースの Panda ロボット環境を提供し、HER を用いたオフポリシー手法による baseline 結果とともに、5 つのタスクを対象とする多目的強化学習をサポートします。

ABSTRACT

This paper presents panda-gym, a set of Reinforcement Learning (RL) environments for the Franka Emika Panda robot integrated with OpenAI Gym. Five tasks are included: reach, push, slide, pick & place and stack. They all follow a Multi-Goal RL framework, allowing to use goal-oriented RL algorithms. To foster open-research, we chose to use the open-source physics engine PyBullet. The implementation chosen for this package allows to define very easily new tasks or new robots. This paper also presents a baseline of results obtained with state-of-the-art model-free off-policy algorithms. panda-gym is open-source and freely available at https://github.com/qgallouedec/panda-gym.

研究の動機と目的

オープンで構成可能な Panda ロボット環境を多目的 RL 研究のために提供する。
最新のモデルフリーのオフポリシーアルゴリズムを5つの操作タスクで評価する。
新しいタスク/ロボットの拡張を容易にするため、タスクとロボットのモジュール分離を実現する。
学習を促進するために高速・並列化可能なシミュレーションを提供する PyBullet の活用を強調する。
ロボット RL における今後の開発や比較を導くベースラインと洞察を提供する。

提案手法

OpenAI Gym に統合された PyBullet で Panda ロボット環境を実装する。
エピソードごとにランダムに生成される目標を用いた Multi-Goal RL フレームワークを採用する。
5 つのタスク（reach, push, slide, pick & place, stack）を、疎報酬と密報酬で定義する。
新しいロボットとタスクを容易に定義できるよう、タスククラスとロボットクラスを分離する。
HER を組み込んだ DDPG、SAC、TD3 の 21 のシードに対するベースライン結果を提供する。

実験結果

リサーチクエスチョン

RQ1人気のあるオフポリシー RL アルゴリズム（DDPG、SAC、TD3）は HER を用いた panda の多目標操作タスクでどのように性能を示すか？
RQ25 つのタスクにおける難易度が学習曲線とサンプル効率に与える影響はどのようか？
RQ3タスクとロボットのクラスを分離することは、新しいロボットやタスクへの環境拡張を容易にするか？
RQ4クリップドダブル-Q や HER などのアブレーションがこれらの環境の性能に及ぼす影響は何か？

主な発見

TD3 と SAC はいくつかの環境でクリップド・ダブル-Q アブレーションによって性能が向上するケースがある。
DDPG と TD3 は PandaReach-v1（到達）および PandaPush-v1（押し）で、十分なステップ数を達成するとほぼ完璧に成功する。
スタック（stack）は長い学習を経ても成功が限定的で、広範なトレーニングを通じての成果は少ない。
学習曲線はタスク間でサンプル効率が異なり、到達と押しは滑らせる（slide）、ピック＆プレース、スタックよりも早く収束する。
panda-gym は PyBullet とマルチコアの並列処理を活用することで、MuJoCo ベースの同等品より平均で約9.2% 速く動作する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。