QUICK REVIEW

[논문 리뷰] Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning

Viktor Makoviychuk, Lukasz Wawrzyniak|arXiv (Cornell University)|2021. 08. 23.

Parallel Computing and Optimization Techniques인용 수 318

한 줄 요약

Isaac Gym은 엔드-투-엔드 GPU 가속 로봇 시뮬레이션과 PPO 기반 학습을 제공하여 단일 GPU에서 수만 개의 병렬 환경을 가능하게 하고 CPU 기반 파이프라인에 비해 2~3개의 주문 규모의 속도 향상을 달성합니다.

ABSTRACT

Isaac Gym offers a high performance learning platform to train policies for wide variety of robotics tasks directly on GPU. Both physics simulation and the neural network policy training reside on GPU and communicate by directly passing data from physics buffers to PyTorch tensors without ever going through any CPU bottlenecks. This leads to blazing fast training times for complex robotics tasks on a single GPU with 2-3 orders of magnitude improvements compared to conventional RL training that uses a CPU based simulator and GPU for neural networks. We host the results and videos at \\url{https://sites.google.com/view/isaacgym-nvidia} and isaac gym can be downloaded at \\url{https://developer.nvidia.com/isaac-gym}.

연구 동기 및 목표

시뮬레이션과 데이터 전송에서 CPU-가 GPU 병목 현상을 제거하여 로봇 공학의 고처리량 강화학습을 촉진한다.
관찰(observations), 보상(rewards), 행동(actions)을 GPU에 보관하는 GPU 중심 물리 및 학습 파이프라인을 개발한다.
물리 버퍼를 PyTorch 텐서에 매핑하여 DL 학습과의 원활한 통합을 가능하게 하는 텐서 기반 Python API를 제공한다.
다양하고 고충실도 로봇 환경을 시연하고 단일 GPU 하드웨어에서의 성능 및 학습 속도 향상을 정량화한다.

제안 방법

엔드-투-엔드 GPU 데이터 경로를 갖춘 GPU 가속 물리 시뮬레이션을 위해 NVIDIA PhysX를 활용한다.
물리 상태와 제어를 PyTorch로 래핑된 텐서로 노출하여 Python에서 직접 제로-카피 액세스를 가능하게 한다.
수천 개의 환경 복제를 단일 GPU 씬에 패킹하여 미세한 수준의 병렬화를 극대화한다.
스텝 수행, 상태의 얻기/설정, 제어 적용을 GPU에서 완전히 수행하기 위한 텐서 API와 Python 인터페이스를 구현한다.
벡터화된 관찰 및 행동을 갖춘 PPO 기반 학습 설정을 제공하되, 다른 RL 알고리즘의 대체를 허용한다.

실험 결과

연구 질문

RQ1시뮬레이션 및 학습 데이터의 모든 부분을 GPU에 유지함으로써 CPU 기반 파이프라인과 비교하여 얼마나 큰 가속을 달성할 수 있는가?
RQ2엔드-투-엔드 GPU 학습이 접촉이 풍부한 복잡한 역학을 가진 수천 개의 병렬 로봇 환경을 지원할 수 있는가?
RQ3GPU 가속 시뮬레이터에서 힘줄(tendons), 접점, 도메인 무작위화(domain randomization)를 모델링할 때의 트레이드오프는 무엇인가?
RQ4Isaac Gym을 사용하는 다양한 로봇 시스템에 대한 시뮬레이션-실제 전이(sim-to-real) 성능은 얼마나 잘 나타나는가?
RQ5로봇 작업의 유형별(예: 보행, 지능적 조작) 처리량, 최대 시뮬레이션 길이(horizon), 환경 수의 성능 특성은 무엇인가?

주요 결과

복잡한 로봇 작업에서 CPU 기반 PPO 파이프라인에 비해 2~3개의 주문 규모의 학습 속도 향상.
Ant 및 Humanoid 보행 정책이 단일 A100 GPU에서 몇 분 안에 성능 좋은 보행에 도달할 수 있다.
Shadow Hand 큐브 회전 및 기타 섬세한 작업들이 단일 GPU에서 수 시간 내에 주목할 만한 이정표에 도달하며, CPU-클러스터 기준과 비교된다.
ANYmal 및 TriFinger 작업에 대한 시뮬레이션-현실 전이 시연이 보여지며, 고충실도 접촉-풍부 시뮬레이션을 강조한다.
OpenAI Shadow Hand 큐브 학습 결과가 Isaac Gym으로 재현 가능하며, 이전의 CPU/GPU 구도보다 훨씬 빠르게 경쟁력 있는 성공률을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.