[論文レビュー] Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives
本論文は、RAPS(Robot Action Primitives for RL)を導入します。これは高レベルポリシーにより駆動されるパラメータ化されたアクションのライブラリで、複数ドメインにまたがる視覚ベースのロボット操作における学習を加速させ、サンプル効率とタスク成功率をベースラインおよびオフラインスキル手法より改善します。
Despite the potential of reinforcement learning (RL) for building\ngeneral-purpose robotic systems, training RL agents to solve robotics tasks\nstill remains challenging due to the difficulty of exploration in purely\ncontinuous action spaces. Addressing this problem is an active area of research\nwith the majority of focus on improving RL methods via better optimization or\nmore efficient exploration. An alternate but important component to consider\nimproving is the interface of the RL algorithm with the robot. In this work, we\nmanually specify a library of robot action primitives (RAPS), parameterized\nwith arguments that are learned by an RL policy. These parameterized primitives\nare expressive, simple to implement, enable efficient exploration and can be\ntransferred across robots, tasks and environments. We perform a thorough\nempirical study across challenging tasks in three distinct domains with image\ninput and a sparse terminal reward. We find that our simple change to the\naction interface substantially improves both the learning efficiency and task\nperformance irrespective of the underlying RL algorithm, significantly\noutperforming prior methods which learn skills from offline expert data. Code\nand videos at https://mihdalal.github.io/raps/\n
研究の動機と目的
- ロボティクスにおける探索と学習の課題を、完全に連続的なアクション空間で動機づける。
- 高レベルポリシーで制御される固定ライブラリのパラメータ化アクション(RAPS)を提案する。
- RAPS が画像入力からの学習速度とタスク成功を、さまざまなドメインで改善することを示す。
提案手法
- 各プリミティブ f_k(s, args) がコントローラ C_k をハorizon H_k で動作させてロボット状態 s をターゲット s* に向けて駆動する、K 個のプリミティブのライブラリを定義する。
- プリミティブ固有の args から s* を計算するプリミティブ依存の誤差 e_k(s, s*) を用いる。固定のエンドエフェクタまたは関節コントローラ C_k を使用する。
- RL との統合は、ポリシーが1-hot なプリミティブ選択と全プリミティブの連結引数ベクトルを出力する形で、環境がプリミティブを選択して実行する。
- 必要に応じて生のアクションへマップするダミーのプリミティブを含め、表現力を保つ。
- Kitchen Suite、Metaworld、Robosuite の3ドメインで、スパース報酬を伴う視覚ベースのタスクを評価し、Raw Actions およびオフラインスキルと比較する。
実験結果
リサーチクエスチョン
- RQ1パラメータ化アクションプリミティブは、Raw Actions やオフラインデータから学習したスキルと比較して、視覚ベースのロボットRLにおける探索と学習効率を改善できるか。
- RQ2RAPS ベースのポリシーは基盤となる RL アルゴリズムに依存せず、タスクやドメインを跨って転用可能か。
- RQ3プリミティブは、階層的/マルチタスクの RL および教師なし探索をベースラインより効果的に実現できるか。
- RQ4RAPS の使用は、壁時計のトレーニング時間とトレーニング更新回数にどのような影響を与えるか。
- RQ5固定プリミティブライブラリは、タスクごとの手作業による調整なしに、ロボットやタスクに跨って一般化できるか。
主な発見
- RAPS は、Kitchen、Metaworld、Robosuite でのスパース報酬操作において、ベースラインより大幅に優れている。
- Dreamer、SAC、PPO に対しても RAPS のようなアクションパラメトリゼーションは堅牢で、高い性能を維持する。
- オフラインスキル手法 SPIRL および PARROT は、容易なタスクでは競合的だが、デモンストレーション集合外の難しいタスクでは苦戦する。
- 階層的マルチタスク設定では、RAW Actions のみと比べて、RAPS は複数のサブタスクをより安定して効率的に解決できる。
- RAPS は生のアクションよりも世界モデルをより効果的に学習し、探索の無教師型をより速く実現し、迅速な微調整を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。