[論文レビュー] ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for Mobile Manipulation
ReLMoGen は、アクション空間をモーション計画のサブゴールへと拡張することにより、モーション生成と強化学習を統合し、長期指向のモバイル操作タスクを効率的に解くことを可能にし、モーションプランナー間での強力な転移性を示す。
Many Reinforcement Learning (RL) approaches use joint control signals (positions, velocities, torques) as action space for continuous control tasks. We propose to lift the action space to a higher level in the form of subgoals for a motion generator (a combination of motion planner and trajectory executor). We argue that, by lifting the action space and by leveraging sampling-based motion planners, we can efficiently use RL to solve complex, long-horizon tasks that could not be solved with existing RL methods in the original action space. We propose ReLMoGen -- a framework that combines a learned policy to predict subgoals and a motion generator to plan and execute the motion needed to reach these subgoals. To validate our method, we apply ReLMoGen to two types of tasks: 1) Interactive Navigation tasks, navigation problems where interactions with the environment are required to reach the destination, and 2) Mobile Manipulation tasks, manipulation tasks that require moving the robot base. These problems are challenging because they are usually long-horizon, hard to explore during training, and comprise alternating phases of navigation and interaction. Our method is benchmarked on a diverse set of seven robotics tasks in photo-realistic simulation environments. In all settings, ReLMoGen outperforms state-of-the-art Reinforcement Learning and Hierarchical Reinforcement Learning baselines. ReLMoGen also shows outstanding transferability between different motion generators at test time, indicating a great potential to transfer to real robots.
研究の動機と目的
- モバイル操作タスクにおける探索と長期的な課題を動機づけ、対処する。
- RLループ内でアクションをモーションジェネレータのサブゴールへと持ち上げるフレームワークを提案する。
- ナビゲーション、インタラクティブナビゲーション、およびモバイル操作タスク全般で性能とサンプル効率の向上を示す。
提案手法
- サブゴール a' がモーションジェネレータ(MG)を導くリフトされたMDPを導入し、低レベルアクションを生成する。
- 2 つのサブゴール生成ポリシーの変種: 連続型 (SGP-R) と離散型 (SGP-D)、それぞれ SAC または DQN で訓練される。
- サブゴール達成のためにプランナー(RRT-Connect または PRM)と軌道制御を組み合わせたモーションジェネレータ。
- リフトされた遷移と報酬関数を定義する: MG は低レベルアクションのシーケンスを出力し、R' はそのシーケンス全体のMG報酬を蓄積する。
- RGB-D、LiDAR、タスク情報からの観測に基づいてサブゴールを予測するSGPを訓練し、ナビゲーションとインタラクションのためのベースサブゴールとアームサブゴールを可能にする。
- 再訓練なしでテスト時にモーションプランナーを入れ替えることで転移性を実証する。
実験結果
リサーチクエスチョン
- RQ1ReLMoGen はナビゲーションと操作を含む幅広いロボットタスクを解決できるか?
- RQ2アクション空間をサブゴールへ持ち上げることは、長期的なモバイル操作タスクにおける探索とサンプル効率を改善するか?
- RQ3学習済みのサブゴール生成ポリシーは、テスト時のモーションプランナーの変更に対して頑健か?
- RQ4さまざまな操作要求を伴うタスクで、連続サブゴールと離散サブゴールのパラメータ化はどう比較されるか?
主な発見
- ReLMoGen は、7つのタスクにおいて最先端のRLおよびHRLベースラインより高いタスク完了率を達成する。
- ReLMoGen は、収束が速く、サンプル効率が高く、勾配更新回数が少ないため、実時間で訓練がしばしば7倍速い。
- このアプローチは解釈可能なサブゴールマップを生み出し、高価値領域が有益な相互作用と一致する(例:ボタン、キャビネットの扉)。
- テスト時に異なるモーションプランナーへ転送を可能にし、性能低下が最小で、現実のロボットに対する頑健性と実用性を示す。
- SGP-D(離散サブゴールマップ)は微細な操作が必要なタスクで優れ、SGP-R(連続サブゴール回帰)はより広範なナビゲーションと相互作用シナリオで優れている。
- 探索分析全体において、ReLMoGen は有意義な相互作用を探索し、純粋なアクション空間RLベースラインよりも大きな物理的・潜在状態領域をカバーする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。