[論文レビュー] Sim-to-Real: Learning Agile Locomotion For Quadruped Robots
この論文は、アジャイル四足歩行のための完全なシミュレータ-現実学習システムを提示します。現実 Minitaur ロボットへ適用可能な頑健で適応的なポリシーを学習するために、改善された忠実度、遅延モデリング、および現実とのギャップを埋めるダイナミクス/ランダム化を用いて、シミュレーションで歩法を学習します。
Designing agile locomotion for quadruped robots often requires extensive expertise and tedious manual tuning. In this paper, we present a system to automate this process by leveraging deep reinforcement learning techniques. Our system can learn quadruped locomotion from scratch using simple reward signals. In addition, users can provide an open loop reference to guide the learning process when more control over the learned gait is needed. The control policies are learned in a physics simulator and then deployed on real robots. In robotics, policies trained in simulation often do not transfer to the real world. We narrow this reality gap by improving the physics simulator and learning robust policies. We improve the simulation using system identification, developing an accurate actuator model and simulating latency. We learn robust controllers by randomizing the physical environments, adding perturbations and designing a compact observation space. We evaluate our system on two agile locomotion gaits: trotting and galloping. After learning in simulation, a quadruped robot can successfully perform both gaits in the real world.
研究の動機と目的
- ア deep 強化学習を用いて、スクラッチからアジャイル四足歩行ポリシーの設計を自動化する。
- シミュレーションと実機ハードウェアの現実ギャップを、正確なアクチュエータモデル、遅延処理、システム識別を通じて狭める。
- 完全に学習されたものからユーザーがガイドする歩法パターンまでのユーザー制御性のスペクトルを提供する。
- 学習した歩法(トロットと gallop)を実機の Minitaur ロボットへ転送し、エネルギー効率を改善する。
- 頑健性技術が現れ伝達性能に与える影響を、様々な物理パラメータで評価する。
提案手法
- Locomotion を部分観測可能マルコフ決定過程として定式化し、Proximal Policy Optimization (PPO) で最適化する。
- 無効な構成を避け、学習を促進するためのコンパクトな脚空間アクション表現を用いる。
- オープンループの基準歩法をフィードバックポリシーと統合し、ユーザー指定または学習された歩法を可能にする。
- シミュレーションの忠実度を向上させるために、システム識別、アクチュエータモデル、遅延処理を導入する。PWM駆動DCモータを区分的トルク-電流関係でモデル化する。
- ダイナミクスのランダム化、摂動、コンパクトな観測などの頑健性技術を用いて、シミュレーション-現実転送を改善する。
- learned ポリシーをトロットおよびガリョン歩法で評価し、実機の専門家作成歩法と比較する。
実験結果
リサーチクエスチョン
- RQ1物理ベースのシミュレーションで学習したポリシーは、追加の訓練微調整なしに実際の四足歩行ロボットへ効果的に転送できるか。
- RQ2現実ギャップを狭めるための、シミュレータの忠実度強化と頑健性技術の組み合わせは、俊敏な locomotion にどのように影響するか。
- RQ3オープンループの参照を用いたユーザー主導の制御は、学習された歩法のスタイルとバランスにどのように影響するか。
- RQ4現地ハードウェアでのエネルギーと速度のトレードオフは、学習歩法と手作りの専門歩法でどう現れるか。
- RQ5観測空間の次元数が、学習ポリシーの転送性と安定性に与える影響はどの程度か。
主な発見
| Gait | Speed (m/s) | Avg. Mech. Power (W) |
|---|---|---|
| Trotting (handcrafted) | 0.56 | 92.72 |
| Trotting (learned) | 0.60 | 71.78 |
| Galloping (handcrafted) | 1.21 | 290.00 |
| Galloping (learned) | 1.18 | 188.79 |
- シミュレーションを改善し頑健性手法を適用すると、アジャイルなガリョンとトロットがシミュレーション上で自然に現れ、実機 Minitaur ロボットへ転送可能である。
- 学習された歩法は、手作業で設計された同等物よりも低エネルギーで競争力のある速度を達成する(ガリョンおよびトロットで顕著なエネルギー削減)。
- 実機転送には正確なアクチュエータモデリングと遅延を考慮したシミュレーションが不可欠であり、これらがなければ学習ポリシーはハードウェア上で失敗する。
- ダイナミクスのランダム化とランダムな摂動は頑健性と転送性を向上させるが、頑健性と最適性の間にトレードオフがある。
- コンパクトな観測空間(4次元)は、センサを削減した場合の転送安定性を助ける。
- トロットでは、実機の学習歩法の速度は 0.60 m/s、シミュレーションは 0.50 m/s、エネルギー使用量は手作りトロットより低い(71.78 W 対 92.72 W)。
- ガリョンでは、実機の学習歩法の速度は 1.18 m/s、シミュレーションは 1.21 m/s、エネルギー使用量は低くなる(188.79 W 対 290.00 W)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。