QUICK REVIEW

[論文レビュー] Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer

Xinyang Gu, Yen‐Jen Wang|arXiv (Cornell University)|Apr 8, 2024

Robotic Locomotion and Control被引用数 6

ひとこと要約

Humanoid-Gym は Nvidia Isaac Gym をベースにしたオープンソースの RL フレームワークで、ヒューマノイドの移動ポリシーを訓練し、ゼロショットの sim-to-real 転送を可能にします。MuJoCo での sim-to-sim 検証と RobotEra の二つのヒューマノイド（XBot-S と XBot-L）での実機検証を伴います。

ABSTRACT

Humanoid-Gym is an easy-to-use reinforcement learning (RL) framework based on Nvidia Isaac Gym, designed to train locomotion skills for humanoid robots, emphasizing zero-shot transfer from simulation to the real-world environment. Humanoid-Gym also integrates a sim-to-sim framework from Isaac Gym to Mujoco that allows users to verify the trained policies in different physical simulations to ensure the robustness and generalization of the policies. This framework is verified by RobotEra's XBot-S (1.2-meter tall humanoid robot) and XBot-L (1.65-meter tall humanoid robot) in a real-world environment with zero-shot sim-to-real transfer. The project website and source code can be found at: https://sites.google.com/view/humanoid-gym/.

研究の動機と目的

シミュレーションから実世界へのゼロショット転送を、サイズの異なるヒューマノイドに対して実現する。
多様なダイナミクスを横断してポリシーを検証するための sim-to-sim 検証経路を提供する。
ヒューマノイド向けの専門報酬とドメインランダム化を備えた、アクセスしやすいオープンソースの RL ライブラリを提供する。
MuJoCo ベースの検証を通じて、物理ロボットを用いずに頑健なポリシー検証を促進する。

提案手法

観測から行動へをマッピングし、期待リターンを最大化するポリシー π(a|o) を用いた、S,A,T,O,R,γ の要素を含む強化学習モデル M を POMDP で使用する。
トレーニング時には Asymmetric Actor-Critic および特権情報を用いた Proximal Policy Optimization (PPO) 損失で最適化する。
高頻度コントロールループを設計する（ポリシーは 100 Hz、内部 PD コントローラは 1000 Hz）、参照サイン波 gait と足接地の周期マスクを用いる。
時計信号、指令、関節状態、角速度、ベース姿勢、特権観測を含むリッチな観測空間を定義し、堅牢な固有受容感覚を可能にする。
関節位置/速度、遅延、摩擦、モータの強さ、ペイロード、その他のダイナミクスに関するドメインランダム化を適用して sim-to-real のギャップを埋める。
Nvidia Ⓡ Isaac Gym で広く学習し、sim-to-sim（MuJoCo）で検証してから sim-to-real へ転送することを想定して訓練する。
MuJoCo のダイナミクスを現実世界のアクチュエータと四肢の挙動に近づけるようキャリブレーションを行い、脚の振幅正弦波と関節位相肖像の比較で検証する。

Figure 1 : Humanoid-Gym enables users to train their policies within Nvidia Isaac Gym and validate them in MuJoCo. Additionally, we have successfully tested the complete pipeline with two humanoid robots. They were trained in Humanoid-Gym and transferred to real-world environments in a zero-shot man

実験結果

リサーチクエスチョン

RQ1サイズの異なるヒューマノイド間でのシミュレーションから実世界へのゼロショット転送は実現可能か。
RQ2MuJoCo での sim-to-sim 検証は現実世界の性能と相関する頑健性検証を提供するか。
RQ3ドメインランダム化と報酬設計はヒューマノイドの sim-to-real ギャップを縮小するのにどれだけ効果的か。
RQ4MuJoCo ダイナミクスはキャリブレーション後、現実世界のヒューマノイド移動をどれだけ正確に再現できるか。
RQ5物理ロボットを持たない研究者のための Humanoid-Gym のオープンソース展開における実践的な考慮事項は何か。

主な発見

現実世界のヒューマノイド（XBot-S および XBot-L）へのゼロショット転送は、シミュレーションで訓練されたポリシーで実証されている。
キャリブレートされた MuJoCo ダイナミクスは脚振り軌跡と関節位相肖像を実世界データに近づけ、sim-to-real の忠実度を改善している。
Humanoid-Gym は異なる環境ダイナミクス間での sim-to-sim 検証を可能にし、ポリシーの頑健性と一般化を支持している。
ドメインランダム化と特化した報酬設計により、平坦な地形と不整地の双方で安定した移動を sim-to-real 転送で実現できる。
このフレームワークはオープンソースとして実装されており、Isaac Gym 訓練から MuJoCo 検証および実世界展開までの完全なパイプラインを提供する。

Figure 2 : Pipeline of Humanoid-Gym. Initially, we employ massively parallel deep reinforcement learning (RL) within Nvidia Isaac Gym, incorporating diverse terrains and dynamics randomization. Subsequently, we undertake sim-to-sim transfer to test policies. Due to our meticulous calibration, the pe

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。