QUICK REVIEW

[論文レビュー] RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation

Yufei Wang, Zhou Xian|arXiv (Cornell University)|Nov 2, 2023

Reinforcement Learning in Robotics被引用数 9

ひとこと要約

RoboGen は、基盤モデルを用いてタスクを提案し、シーンと学習 supervision を生成し、規模を持ってロボット技能を学習する完全自動の生成パイプラインであり、シミュレーション内で継続的かつ多様な技能デモンストレーションを可能にする。

ABSTRACT

We present RoboGen, a generative robotic agent that automatically learns diverse robotic skills at scale via generative simulation. RoboGen leverages the latest advancements in foundation and generative models. Instead of directly using or adapting these models to produce policies or low-level actions, we advocate for a generative scheme, which uses these models to automatically generate diversified tasks, scenes, and training supervisions, thereby scaling up robotic skill learning with minimal human supervision. Our approach equips a robotic agent with a self-guided propose-generate-learn cycle: the agent first proposes interesting tasks and skills to develop, and then generates corresponding simulation environments by populating pertinent objects and assets with proper spatial configurations. Afterwards, the agent decomposes the proposed high-level task into sub-tasks, selects the optimal learning approach (reinforcement learning, motion planning, or trajectory optimization), generates required training supervision, and then learns policies to acquire the proposed skill. Our work attempts to extract the extensive and versatile knowledge embedded in large-scale models and transfer them to the field of robotics. Our fully generative pipeline can be queried repeatedly, producing an endless stream of skill demonstrations associated with diverse tasks and environments.

研究の動機と目的

手作業で作成したタスクと監督の範囲を超えたスケーラブルなロボット技能学習を促進する。
基盤モデルと生成モデルを活用して自動的に多様なタスク、シーン、学習信号を生成する。
高レベルのタスクをサブタスクと学習戦略にマッピングする自己案内型の提案–生成–学習サイクルを作成する。
最小限の人間入力で、終わりのない多様な技能デモンストレーションを生み出す完全な生成パイプラインを示す。

提案手法

タスク提案: ロボットの種類とサンプルされた物体に条件づけられた多様な高レベルタスクを生成するために、LLM(GPT-4)を利用する。
シーン生成: LLMに問いかけてシーン資産と設定を生成し、Objaverse/PartNetMobility から資産を取得し、ビジョンと言語モデルで検証する。
学習監督の生成: タスクをサブタスクに分解し、学習アルゴリズムを選択し、報酬関数と行動空間をGPT-4 の指導のもとで生成する。
技能学習: タスクタイプに応じて、RL（SAC）、モーションプランニング（BIT*）、勾配ベースの軌道最適化、モーションプランニングを備えたアクションプリミティブの混成を用いて訓練する。
システム統合: 4つの段階を、終わりなく問合せ可能な微分可能なエンドツーエンドの生成パイプラインに統合する。

実験結果

リサーチクエスチョン

RQ1RoboGen は手動で作成されたベンチマークを上回る多様で妥当なタスクを生成できるか？
RQ2生成されたシーンは資産の有効性と空間配置の観点で提案されたタスクと一致しているか？
RQ3自動生成された学習監督は、剛体、変形体、機動の分野で技能学習を導く際に有効か？
RQ4複数の学習パラダイムを統合することで、長期的なタスクの成功率は改善されるか？
RQ5完全に自動化されたパイプラインは、規模の大きさで意味のある多様なロボット技能を生み出せるか？

主な発見

RoboGen は Self-BLEU および埋め込み類似度で測定される、いくつかの手動ベンチマークよりも高いタスクの多様性を達成する。
物体とサイズの検証は、BLIP-2 スコアで示されるようにシーンの妥当性を大幅に向上させる。
自動生成された学習の分解と報酬は、長期的タスクに対する技能学習を観察可能に生み出す。
複数の学習アルゴリズム（RL、軌道最適化、プランニング）を許容することで、関節付きオブジェクトタスクにおいてRLのみのベースラインより性能が向上する。
系は、剛体、関節付き、可変形物体の操作、機動全般にわたる連続的な多様な技能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。