QUICK REVIEW

[论文解读] Sim-to-Real: Learning Agile Locomotion For Quadruped Robots

Jie Tan, Tingnan Zhang|arXiv (Cornell University)|Apr 27, 2018

Robotic Locomotion and Control参考文献 37被引用 113

一句话总结

该论文提出了一个用于敏捷四足 locomotion 的完整从仿真到现实的学习系统，在仿真中学习步态，部署到真实 Minitaur 机器人时具有鲁棒、可适应的策略，利用提升的保真度、延迟建模和动态/随机化来弥合现实差距。

ABSTRACT

Designing agile locomotion for quadruped robots often requires extensive expertise and tedious manual tuning. In this paper, we present a system to automate this process by leveraging deep reinforcement learning techniques. Our system can learn quadruped locomotion from scratch using simple reward signals. In addition, users can provide an open loop reference to guide the learning process when more control over the learned gait is needed. The control policies are learned in a physics simulator and then deployed on real robots. In robotics, policies trained in simulation often do not transfer to the real world. We narrow this reality gap by improving the physics simulator and learning robust policies. We improve the simulation using system identification, developing an accurate actuator model and simulating latency. We learn robust controllers by randomizing the physical environments, adding perturbations and designing a compact observation space. We evaluate our system on two agile locomotion gaits: trotting and galloping. After learning in simulation, a quadruped robot can successfully perform both gaits in the real world.

研究动机与目标

使用深度强化学习从零开始自动设计敏捷四足步态策略。
通过准确的执行器模型、延迟处理和系统识别来缩小仿真与真实硬件之间的现实差距。
提供从完全由学习驱动到用户引导步态模式的可控性谱。
展示将学习到的步态（小步和奔跑）迁移到真实的 Minitaur 机器人，并实现更高的能效。
评估鲁棒性技术在不同物理参数下对迁移性能的影响。

提出的方法

将运动建模为部分可观测马尔可夫决策过程，并使用近端策略优化（PPO）进行优化。
使用紧凑的腿部动作表示以避免无效配置并促进学习。
将开环参考步态与反馈策略结合，以允许用户指定或学习的步态。
通过系统辨识、执行器模型和延迟处理来提升仿真保真度；对 PWM 驱动的直流电机使用分段力矩-电流关系进行建模。
采用鲁棒性技术，包括动态随机化、扰动和紧凑的观测来改善仿真到现实的迁移。
在小步和奔跑步态上评估学习策略，并在真实硬件上与人工设计的步态进行比较。

实验结果

研究问题

RQ1在基于物理的仿真中学习的策略在没有后训练微调的情况下能否有效迁移到真实四足机器人？
RQ2哪种仿真保真度提升与鲁棒性技术的组合能最好缩小敏捷运动的现实差距？
RQ3用户引导控制（开环参考）如何影响学习到的步态风格和平衡？
RQ4在真实硬件上，学习步态与手工设计的专家步态之间的能耗与速度权衡是什么？
RQ5观测空间维数如何影响学习策略的可迁移性和稳定性？

主要发现

步态	速度 (m/s)	平均力矩功率 (W)
Trotting (handcrafted)	0.56	92.72
Trotting (learned)	0.60	71.78
Galloping (handcrafted)	1.21	290.00
Galloping (learned)	1.18	188.79

在仿真改进并应用鲁棒性方法时，敏捷奔跑和小步可以自动从仿真中出现并迁移到真实的 Minitaur 机器人。
学习到的步态在速度上具竞争力且相比手工步态（奔跑和小步）能耗更低（显著的能量降低）。
准确的执行器建模和带延迟感知的仿真对于成功的现实迁移至关重要；没有它们，学习到的策略在硬件上会失败。
动态随机化和随机扰动提高鲁棒性和可迁移性，但在鲁棒性与最优性之间存在权衡。
紧凑的观测空间（四维）在使用简化传感器集时有助于提高迁移稳定性。
在小步中，学习步态在真实机器人上的速度为 0.60 m/s，相较仿真为 0.50 m/s，且能耗相较手工小步更低（71.78 W vs 92.72 W）。
在奔跑中，学习步态在真实机器人上的速度为 1.18 m/s，相较仿真为 1.21 m/s，且能耗更低（188.79 W vs 290.00 W）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。