[論文レビュー] DayDreamer: World Models for Physical Robot Learning
本論文は Dreamer の世界モデル手法を四台の実機ロボットに適用し、シミュレーターなしで現実世界でオンライン学習をサンプル効率良く直接実現できるようにし、移動、操作、ナビゲーションのタスクに跨る。
To solve tasks in complex environments, robots need to learn from experience. Deep reinforcement learning is a common approach to robot learning but requires a large amount of trial and error to learn, limiting its deployment in the physical world. As a consequence, many advances in robot learning rely on simulators. On the other hand, learning inside of simulators fails to capture the complexity of the real world, is prone to simulator inaccuracies, and the resulting behaviors do not adapt to changes in the world. The Dreamer algorithm has recently shown great promise for learning from small amounts of interaction by planning within a learned world model, outperforming pure reinforcement learning in video games. Learning a world model to predict the outcomes of potential actions enables planning in imagination, reducing the amount of trial and error needed in the real environment. However, it is unknown whether Dreamer can facilitate faster learning on physical robots. In this paper, we apply Dreamer to 4 robots to learn online and directly in the real world, without simulators. Dreamer trains a quadruped robot to roll off its back, stand up, and walk from scratch and without resets in only 1 hour. We then push the robot and find that Dreamer adapts within 10 minutes to withstand perturbations or quickly roll over and stand back up. On two different robotic arms, Dreamer learns to pick and place multiple objects directly from camera images and sparse rewards, approaching human performance. On a wheeled robot, Dreamer learns to navigate to a goal position purely from camera images, automatically resolving ambiguity about the robot orientation. Using the same hyperparameters across all experiments, we find that Dreamer is capable of online learning in the real world, establishing a strong baseline. We release our infrastructure for future applications of world models to robot learning.
研究の動機と目的
- Dreamer が現実のロボット上でオンライン、シミュレーターなしの学習を直接可能にできることを実証する。
- 単一のハイパーパラメータ設定で、移動、操作、ナビゲーションという異なるロボット間で適用性を示す。
- 現実装置での世界モデルベースのプランニングと従来のモデルフリーベースのベースラインとのデータ効率を評価する。
- 世界モデルを用いた将来のロボット学習研究を支援するオープンソースのインフラを強調する。
提案手法
- 実世界の体験のリプレイバッファから世界モデルを学習するために Dreamer フレームワークを用いる。
- RSSM ベースの世界モデル(エンコーダ、ダイナミクス、デコーダ、報酬ネットワーク)で未来の潜在表現を予測する。
- 潜在空間での想定ロールアウトからアクター-クリティック方策を訓練し、価値ターゲットにはラムダリターンを用いる。
- データ収集と学習を分離し、並行で低レイテンシの訓練と相互作用を可能にする。
- マルチモーダルなセンサデータを潜在コードに融合し、明示的な状態推定なしでの計画を可能にする。
- エントロピー正則化による方策探索を維持し、適切な勾配推定を用いる(連続作用に対しては再パラメータ化、離散には Reinforce)。
実験結果
リサーチクエスチョン
- RQ1Dreamer はシミュレーターなしで現実世界のロボット学習を直接可能にできるか。
- RQ2Dreamer は異なるロボットプラットフォーム、センサ modalities、アクション空間で成功するか。
- RQ3Dreamer のデータ効率は実機ロボットでの強力なベースラインとどう比較されるか。
- RQ4多様な現実世界タスクに対して単一のハイパーパラメータセットを適用する実現性はどうか。
- RQ5実用的なロボティクス設定で Dreamer と互換性のあるハードウェアとセンサモダリティは何か。
主な発見
- Dreamer は四台のロボットで現実世界上で直接学習し、シミュレーターは不要。
- 四足歩行ロボットが約1時間の現実世界での訓練で転倒、起立、歩行を学習;摂動に対する適応は10分以内。
- UR5 および XArm のピクセルと疎報酬からの視覚的ピックアンドプレースが数時間後に人間の性能に近づく。
- Sphero は RGB 画像からのナビゲーションで2時間未満にゴール到達を達成;DrQv2 はこのタスクで同等の性能。
- Dreamer はいくつかのタスクで強力なベースライン(Rainbow DQN、PPO)および人間オペレータよりサンプル効率が良い。
- 同じハイパーパラメータが移動、操作、ナビゲーションのタスク全般で機能する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。