Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

Nikita Rudin, David Hoeller|arXiv (Cornell University)|2021. 09. 24.
Robotic Locomotion and Control인용 수 101
한 줄 요약

본 논문은 수천 대의 로봇을 병렬로 이용해 하나의 GPU에서 네발 보행 정책을 학습하여 분(minute)-수분 수준의 학습 시간을 달성하고, 게임에서 영감을 받은 커리큘럼과 GPU 기반 파이프라인의 도움으로 시뮬레이션-현실 전이가 성공적으로 달성되었다.

ABSTRACT

In this work, we present and study a training set-up that achieves fast policy generation for real-world robotic tasks by using massive parallelism on a single workstation GPU. We analyze and discuss the impact of different training algorithm components in the massively parallel regime on the final policy performance and training times. In addition, we present a novel game-inspired curriculum that is well suited for training with thousands of simulated robots in parallel. We evaluate the approach by training the quadrupedal robot ANYmal to walk on challenging terrain. The parallel approach allows training policies for flat terrain in under four minutes, and in twenty minutes for uneven terrain. This represents a speedup of multiple orders of magnitude compared to previous work. Finally, we transfer the policies to the real robot to validate the approach. We open-source our training code to help accelerate further research in the field of learned legged locomotion.

연구 동기 및 목표

  • GPU의 대규모 병렬성을 활용하여 현실 세계 로봇 정책 학습 시간을 줄인다.
  • 대규모 병렬 환경에서 알고리즘 구성요소와 하이퍼파라미터가 어떻게 적응하는지 조사한다.
  • 수천 대의 병렬 로봇에 적합한 게임에서 영감을 받은 자동 커리큘럼을 도입한다.
  • 학습된 보행 정책의 시뮬레이션-현실 전이를 실제 4족 로봇에서 시연한다.

제안 방법

  • NVIDIA의 Isaac Gym을 사용하여 엔드투엔드 시뮬레이션과 정책 업데이트를 모두 GPU에서 실행하고, 이를 통해 수천 대의 로봇을 병렬로 동작시킨다.
  • 배치 크기와 스텝 수 제약을 포함하여 대규모 병렬 데이터 수집 및 업데이트에 PPO를 적응시킨다.
  • 튜닝 없이 로봇별 성능에 따라 지형 난이도를 증가시키는 게임에서 영감을 받은 커리큘럼을 도입한다.
  • 시간 제한 에피소드에서 크리틱의 안정성을 유지하기 위해 타임아웃 재설정 시 크리틱 부트스트래핑을 구현한다.
  • 마찰, 관측 잡음, 외부 추진력 등 시뮬레이션-실제 요인을 무작위화하여 전이 강건성을 향상시킨다.
  • 단일 정책을 간단한 관찰 및 행동으로 여러 지형에서 학습하고 다수의 로봇 변형 및 이족 로봇으로의 전이를 검증한다.

실험 결과

연구 질문

  • RQ1온정책 DRL 설정에서 병렬 로봇 수를 늘리면 최종 정책 성능과 학습 시간에 어떤 영향을 미치는가?
  • RQ2GPU에서 수천 개의 병렬 에이전트를 다루기 위해 PPO에 어떤 하이퍼파라미터 조정이 필요한가?
  • RQ3대규모 병렬 시뮬레이션에서 학습된 정책이 서로 다른 하드웨어 변형을 가진 실제 4족 로봇으로 효과적으로 전이될 수 있는가?
  • RQ4게임에서 영감을 받은 커리큘럼이 다양한 지형 유형에서 학습 과정과 최종 성능에 어떤 영향을 미치는가?

주요 결과

  • 평지 지형에 대한 학습은 단일 GPU에서 4분 이내에 달성할 수 있다.
  • 비정형 지형에 대한 학습은 약 20분 정도 걸린다.
  • 이 방법은 수천 대의 로봇을 병렬로 학습시키는 정책 학습을 가능하게 하며, 기존 연구에 비해 상당한 속도 향상을 보인다.
  • 시뮬레이션에서 학습된 정책은 gait-specific 수작업 엔지니어링 없이 ANYmal C 및 다른 로봇에 실제로 배포될 수 있다.
  • 제안된 파이프라인으로 학습된 단일 정책은 최소한의 수정으로 ANYmal B/C, Unitree A1, Cassie 등 다수의 로봇 변형으로 전이 가능하다.
  • 시뮬레이션에서 4096개 로봇 및 약 100k–200k 샘플의 배치 크기로 학습된 정책은 약 1500개의 정책 업데이트와 20분 미만의 시간 안에 효과적인 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.