QUICK REVIEW

[論文レビュー] Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning

Viktor Makoviychuk, Lukasz Wawrzyniak|arXiv (Cornell University)|Aug 24, 2021

Parallel Computing and Optimization Techniques参考文献 26被引用数 55

ひとこと要約

Isaac GymはエンドツーエンドのGPU加速物理シミュレーションとPPOベースのポリシー学習を単一GPUで提供し、何十から数千の並列環境を可能にし、ロボットタスクのRLトレーニングを2–3オーダーオブマグニチュード高速化します。

ABSTRACT

Isaac Gym offers a high performance learning platform to train policies for wide variety of robotics tasks directly on GPU. Both physics simulation and the neural network policy training reside on GPU and communicate by directly passing data from physics buffers to PyTorch tensors without ever going through any CPU bottlenecks. This leads to blazing fast training times for complex robotics tasks on a single GPU with 2-3 orders of magnitude improvements compared to conventional RL training that uses a CPU based simulator and GPU for neural networks. We host the results and videos at \url{https://sites.google.com/view/isaacgym-nvidia} and isaac gym can be downloaded at \url{https://developer.nvidia.com/isaac-gym}.

研究の動機と目的

高スループットなエンドツーエンドのGPUロボティクスシミュレーションがRLトレーニングを加速させる必要性を動機づける。
シミュレーションと学習をGPU上に保ちCPUのボトルネックを最小化するGPUネイティブプラットフォームとしてIsaac Gymを紹介する。
物理バッファをPyTorchテンソルとしてシームレスな学習ループに包むTensor APIとデータワークフローを説明する。
多様なロボット環境とタスクでの性能向上を実証する。
ANYmalやTriFingerのようなロボットでのシム→リアル移行能力を紹介する。

提案手法

並列環境のシミュレーション用のGPU加速物理バックエンドとしてNVIDIA PhysXを使用する。
CPUデータ転送なしで物理状態と制御テンソルをPyTorchに公開するデータ指向のTensor APIを提供する。
数千の環境インスタンスを1つのシーンにパックして、細粒度なGPU並列処理を活用する。
物理バッファをPyTorchテンソルとして包み、より高速な訓練スクリプトのためのTorchScriptをサポートするPythonインターフェースを提供する。
rl_gamesを用いたGPU上でのベクトル化された観測/行動を使ったPPOベースの学習パイプラインを実装する。

実験結果

リサーチクエスチョン

RQ1シミュレーションと学習の両方をGPU上で完全に実行した場合、ポリシー訓練はどれくらい速くなるのか？
RQ2並列環境数を増やす際のスケーリング限界と性能特性はどうなるのか？
RQ3エンドツーエンドのGPUベースRLの性能はGPUポリシー学習を備えたCPUベースのシミュレータと比較してどうか？
RQ4Isaac Gymは現実的な接触とドメイン乱数化を伴う複雑なロボット操作環境をサポートできるのか？
RQ5ANYmalやTriFingerのようなロボットで示されるシム→リアル転送能力はどの程度示されているのか？

主な発見

Antでの訓練時間は単一のA100 GPUで20秒、Humanoidの移動は4分。
ANYmalの移動は単一GPUで2分未満で訓練可能。
AMPを用いたHumanoidキャラクターアニメーションは6分、単一GPUでShadow Handの立方体回転は35分。
OpenAI Shadow Handの立方体訓練結果は、非対称アクター批判とドメイン乱数化を用いた場合でも、フィードフォワードを使って20回の成功など、再現性のある成功率で再現性が得られる。
ANYmalとTriFingerでのシム→リアル転送デモが示されており、接触リッチな高忠実度操作能力を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。