[論文レビュー] Robot Parkour Learning
この論文は、低コスト四足歩行ロボットのための単一のエンドツーエンド視覚ベースのパークourポリシーを学習するために、ソフト/ハードダイナミクス制約を用いたシミュレーションで専門スキルを訓練し、それらを onboard depth vision と固有受容覚で動作する統一ポリシーへ蒸留する、二段階の強化学習システムを提案する。
Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
研究の動機と目的
- 自律パークourを、小型で低コストのロボットに対する一般化可能な視覚ベースの locomotion チャレンジとして動機付ける。
- ソフトおよびハードダイナミクス制約の下で多様なパークour スキルを学習する二段階RLフレームワークを開発する。
- オンボードの sensing を用いた単一の視覚ベースポリシーへ、複数の専門スキルを蒸留パイプラインで統合する。
- シム実機転移と低コストロボットでのオンボード知覚と計算資源を前提としたデプロイを実証する。
提案手法
- ソフトダイナミクス制約を用いた事前訓練と、障害物の侵入を許す自動カリキュラムを経た後、ハードダイナミクス制約で微調整する二段階RL訓練。
- 五つのパークオールスキルを別個に学習: 高い障害物を登る、広い隙間を飛び越える、低い障壁の下を這う、狭いスリットを通るために傾斜させる、走る、それぞれ簡易報酬で学習: 前進とエネルギーの節約。
- 訓練中の特権情報(障害物距離、高さ、幅、カテゴリ)がスキルポリシーを導く;出力はターゲット関節位置。
- オンボードの固有受容覚、深度画像埋め込み、過去の行動を用いて単一の視覚ベースのパークourポリシーを学ぶための DAgger による蒸留;監督信号は専門ポリシーから供給される。
- 深度画像の前処理、オンボード遅延補正、モータ安全対策を経たシム実機ブリッジ、デプロイは深度と GRU ベースのポリシーの浅いCNN埋め込みを用いる。
実験結果
リサーチクエスチョン
- RQ1単一のエンドツーエンド視覚ベースポリシーは、低コスト四足歩行ロボットの多様なパークオールスキルを学習できるか。
- RQ2ソフトダイナミクス制約を用いた二段階RLアプローチは、難しいパークオールタスクの探索と習得において有効か。
- RQ3蒸留により、複数の専門スキルをオンボード sensing のみを用いる1つのポリシーに統合できるか。
- RQ4このようなポリシーを、計算資源と sensing が限られた実機ロボットへデプロイするために必要なシム実機転移戦略は何か。
- RQ5学習したポリシーは、シミュレーションから2台のロボット(Unitree A1 と Go1)へ一般化し、オンボード計算で動作し、深度入力10 Hz、制御ループ50 Hz で機能するか。
主な発見
| 方法 | 登攀成功率(%) | 跳躍成功率(%) | 這い成功率(%) | 傾斜成功率(%) | 走行成功率(%) | 登攀距離(m) | 跳躍距離(m) | 這い距離(m) | 傾斜距離(m) | 走行距離(m) |
|---|---|---|---|---|---|---|---|---|---|---|
| Blind | 0 | 0 | 13 | 0 | 100 | 1.53 | 1.86 | 2.01 | 1.62 | 3.6 |
| MLP | 0 | 1 | 63 | 43 | 100 | 1.59 | 1.74 | 3.27 | 2.31 | 3.6 |
| No Distill | 0 | 0 | 73 | 0 | 100 | 1.57 | 1.75 | 2.76 | 1.86 | 3.6 |
| RMA | - | - | - | 74 | - | 2.70 | - | - | - | - |
| Ours (parkour policy) | 86 | 80 | 100 | 73 | 100 | 2.37 | 3.05 | 3.60 | 2.68 | 3.6 |
| Oracles w/o Soft Dyn | 0 | 0 | 93 | 86 | 100 | 1.54 | 1.73 | 3.58 | 1.73 | 3.6 |
| Oracles (w/ Soft Dyn) | 95 | 82 | 100 | 100 | 100 | 3.60 | 3.59 | 3.60 | 2.78 | 3.6 |
- パークourポリシーは、深度センサと固有受容覚のみを用いて、最大0.40 mの障害物の登攀、最大0.60 mの隙間の飛越、0.20 mの障壁下を這う、0.28 mのスリットを通過する傾斜、そして走行を実現する。
- ソフトダイナミクス制約を用いた二段階RLは、学習を加速させ、最終的な成功率をベースラインやアブレーションより向上させる。
- GRU ベースの視覚ポリシーはMLPベースラインを上回り、記憶は登攀と跳躍タスクに不可欠である。
- 単一の視覚ベースのパークオールポリシーへの蒸留は頑健なシム実機転移を達成し、ブラインドおよび他のベースラインより実機で優れる。
- 学習したポリシーはシミュレーションから2台のロボット(Unitree A1 と Go1)へ一般化し、10 Hz 深度入力と50 Hz 制御ループによりオンボード計算で動作する。
- この手法は、室内外の現実世界環境で強い性能を示し、測定指標においてMPCベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。