Skip to main content
QUICK REVIEW

[论文解读] Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning

Viktor Makoviychuk, Lukasz Wawrzyniak|arXiv (Cornell University)|Aug 24, 2021
Parallel Computing and Optimization Techniques参考文献 26被引用 55
一句话总结

Isaac Gym 在单个 GPU 上提供端到端的 GPU 加速物理仿真与基于 PPO 的策略训练,能够实现数十到数千个并行环境,并使机器人任务的强化学习训练速度提升 2–3 个数量级。

ABSTRACT

Isaac Gym offers a high performance learning platform to train policies for wide variety of robotics tasks directly on GPU. Both physics simulation and the neural network policy training reside on GPU and communicate by directly passing data from physics buffers to PyTorch tensors without ever going through any CPU bottlenecks. This leads to blazing fast training times for complex robotics tasks on a single GPU with 2-3 orders of magnitude improvements compared to conventional RL training that uses a CPU based simulator and GPU for neural networks. We host the results and videos at \url{https://sites.google.com/view/isaacgym-nvidia} and isaac gym can be downloaded at \url{https://developer.nvidia.com/isaac-gym}.

研究动机与目标

  • 阐明对高吞吐量、端到端 GPU 机器人仿真以加速 RL 训练的需求。
  • 介绍 Isaac Gym 作为一个原生 GPU 平台,将仿真与学习全部保持在 GPU 上以最小化 CPU 瓶颈。
  • 描述将物理缓冲区封装为 PyTorch 张量的 Tensor API 与数据工作流,实现无缝学习循环。
  • 展示在多样化机器人环境和任务中的性能提升。
  • 展示在选定机器人上的仿真到现实的迁移能力。

提出的方法

  • 使用 NVIDIA PhysX 作为并行环境仿真的 GPU 加速物理后端。
  • 提供面向数据的 Tensor API,将物理状态和控制张量暴露给 PyTorch,避免 CPU 数据传输。
  • 将成千上万的环境实例打包到一个场景中,以利用细粒度的 GPU 并行性。
  • 提供一个 Python 接口,可以将物理缓冲区封装为 PyTorch 张量,并支持 TorchScript 以加速训练脚本。
  • 实现一个基于 PPO 的学习管线,在 GPU 上对观测/动作进行向量化,使用 rl_games 进行优化。

实验结果

研究问题

  • RQ1当仿真与学习完全在 GPU 上运行时,策略训练可以达到多快?
  • RQ2在增加并行环境数量时,扩展极限和性能特征是什么?
  • RQ3端到端的基于 GPU 的 RL 性能与具有 GPU 策略训练的 CPU 级仿真器相比如何?
  • RQ4Isaac Gym 是否能支持具有真实接触和领域随机化的复杂机器人操控环境?
  • RQ5该平台在 ANYmal 和 TriFinger 等机器人上的仿真到现实的迁移能力如何体现?

主要发现

  • 在单个 A100 GPU 上,Ant 的训练时间达到 20 秒,Humanoid 的行进训练时间为 4 分钟。
  • ANYmal 的运动训练在单个 GPU 上即可在两分钟内完成。
  • Humanoid 人物动画(使用 AMP)达到 6 分钟,Shadow Hand 立方体旋转在单个 GPU 上需 35 分钟。
  • 在单个 GPU 上,使用非对称 actor-critic 和领域随机化,OpenAI Shadow Hand 立方体训练结果具有可重复性且成功率相当(例如在前馈策略下达到 20 次成功)。
  • 已展示 ANYmal 和 TriFinger 的仿真到现实迁移示例,表明具高保真接触丰富操控能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。