QUICK REVIEW

[论文解读] Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

Nikita Rudin, David Hoeller|arXiv (Cornell University)|Sep 24, 2021

Robotic Locomotion and Control被引用 101

一句话总结

本论文在单个GPU上通过数千个并行机器人训练四足动物的步态策略，实现数分钟的训练时间并成功实现仿真到现实转移，得益于游戏化课程设计和基于GPU的流水线。

ABSTRACT

In this work, we present and study a training set-up that achieves fast policy generation for real-world robotic tasks by using massive parallelism on a single workstation GPU. We analyze and discuss the impact of different training algorithm components in the massively parallel regime on the final policy performance and training times. In addition, we present a novel game-inspired curriculum that is well suited for training with thousands of simulated robots in parallel. We evaluate the approach by training the quadrupedal robot ANYmal to walk on challenging terrain. The parallel approach allows training policies for flat terrain in under four minutes, and in twenty minutes for uneven terrain. This represents a speedup of multiple orders of magnitude compared to previous work. Finally, we transfer the policies to the real robot to validate the approach. We open-source our training code to help accelerate further research in the field of learned legged locomotion.

研究动机与目标

通过在GPU上利用大规模并行性，降低现实世界机器人策略训练时间。
研究算法组件和超参数如何在大规模并行设定下适配。
引入适用于数千并行机器人的游戏化自动课程。
展示在真实四足机器人上的学得步态策略的仿真到现实转移。

提出的方法

使用NVIDIA的Isaac Gym在GPU上完整运行端到端仿真与策略更新，使成千上万的机器人并行。
将PPO调整为适应大规模并行数据采集与更新，包括批量大小和步数约束。
引入游戏化课程，根据每个机器人性能在不调参的情况下提高地形难度。
在超时复位期间对评论家进行引导，保持在时限内的策略稳定性。
对仿真到现实因素进行随机化（摩擦、观测噪声、外部推力），以提升迁移鲁棒性。
用简单的观测和动作在多种地形上训练单一策略，并验证其向多种机器人变体和双足机器人转移。

实验结果

研究问题

RQ1在对策略进行 on-policy DRL 的设置下，增加并行机器人数量如何影响最终策略性能和训练时间？
RQ2在GPU上数千个并行代理的情况下，PPO需要哪些超参数调整才能有效工作？
RQ3在不同硬件变体的真实四足机器人上，massively parallel 仿真中训练的策略是否能有效迁移？
RQ4游戏化课程如何影响不同地形类型上的学习进展与最终性能？

主要发现

在平坦地形上训练可在单个GPU上不到四分钟完成。
在不平地形上训练约二十分钟。
该方法使成千上万的机器人并行训练策略，相比以往工作有显著加速。
在仿真中训练的策略可以部署到真实的ANYmal C及其他机器人，而无需针对步态的手工工程。
使用提出的流程训练的单一策略可在最小修改甚至无需修改的情况下迁移到多种机器人变体（ANYmal B/C、Unitree A1、Cassie）。
在仿真中，使用4096个机器人和批量大小约10万–20万个样本的策略，在1500次策略更新内且总时长不足20分钟即可达到有效性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。