[论文解读] Natural and Robust Walking using Reinforcement Learning without Demonstrations in High-Dimensional Musculoskeletal Models
本文展示了通过强化学习,在高维的肌肉骨骼模型中无需演示即可实现稳健、自然步态的能力,使用自适应奖励并在多个二维/三维模型与仿真器中进行评估。
Humans excel at robust bipedal walking in complex natural environments. In each step, they adequately tune the interaction of biomechanical muscle dynamics and neuronal signals to be robust against uncertainties in ground conditions. However, it is still not fully understood how the nervous system resolves the musculoskeletal redundancy to solve the multi-objective control problem considering stability, robustness, and energy efficiency. In computer simulations, energy minimization has been shown to be a successful optimization target, reproducing natural walking with trajectory optimization or reflex-based control methods. However, these methods focus on particular motions at a time and the resulting controllers are limited when compensating for perturbations. In robotics, reinforcement learning~(RL) methods recently achieved highly stable (and efficient) locomotion on quadruped systems, but the generation of human-like walking with bipedal biomechanical models has required extensive use of expert data sets. This strong reliance on demonstrations often results in brittle policies and limits the application to new behaviors, especially considering the potential variety of movements for high-dimensional musculoskeletal models in 3D. Achieving natural locomotion with RL without sacrificing its incredible robustness might pave the way for a novel approach to studying human walking in complex natural environments. Videos: https://sites.google.com/view/naturalwalkingrl
研究动机与目标
- 研究 RL 在无运动捕捉演示的情况下实现稳健的肌肉骨骼步态的动机与意义。
- 开发具有生物学可行目标(速度、努力、痛感)的奖励函数,以产生类似人类的步态。
- 在不改变奖励的前提下,展示该方法在多个模型和仿真引擎上的可迁移性。
- 演示对干扰和不平整地形的鲁棒性,超越以往基于反射的控制器。
提出的方法
- 采用 DEP-RL 框架,结合对肌肉驱动步态的自适应、约束启发的奖励。
- 奖励项:r_vel(目标质心速度约为1.2 m/s),c_effort(肌肉活动与激励平滑性),c_pain(关节极限与地反力载荷惩罚)。
- 实现对努力项的自适应权重 alpha(t),基于性能进行调整,并通过离策略数据重新标签以保持一致性。
- 应用三个要素确保自然步态:速度维持、能量效率和安全性以避免不自然的关节负载。
- 在多种模型(2D 平面 H0918 到高维 MyoLeg)和两种仿真引擎(Hyfydy 与 MuJoCo/MyoSuite)上进行测试。
- 以随机化状态初始化智能体并对肌肉激励进行裁剪,以减少初始偏差并促进更现实的能量使用。
实验结果
研究问题
- RQ1强化学习能否在无演示的情况下,在高维肌肉骨骼模型中生成自然且稳健的步态?
- RQ2自适应、生物学动机的奖励是否在不同模型与仿真器中实现人类般的步态运动学与 GRF?
- RQ3在训练中未见过的扰动和不平整地形上,学习到的策略有多鲁棒?
- RQ4在不同模型复杂度和生物力学仿真之间,相同的训练设置在多大程度上具有泛化性?
主要发现
| controller | system | avg. effort | experimental match | avg. distance [m] |
|---|---|---|---|---|
| reflex | H0918 | 0.041 ± 3×10^-3 | 0.68 ± 0.08 | 2.46 ± 0.98 |
| RL | H0918 | 0.013 ± 3×10^-4 | 0.67 ± 0.03 | 10.42 ± 0.94 |
| RL | H1622 | 0.015 ± 2×10^-3 | 0.73 ± 0.01 | 5.6 ± 0.99 |
| RL | H2190 | 0.017 ± 1×10^-5 | 0.50 ± 0.01 | 10.59 ± 2.51 |
| RL | MyoLeg | 0.013 ± 2×10^-4 | 0.43 ± 0.05 | n.a. |
- 与某些先前的强化学习方法相比,RL 策略在步态运动学与 GRF 方面更接近实验的人类数据。
- 在4个模型(2D 与 3D,最多90个肌肉)和2个仿真引擎上实现了鲁棒步行,且未改变奖励函数。
- 在平地与扰动地形上,RL 策略在可比任务中表现出比基于反射的控制器更强的鲁棒性。
- 在自适应努力权重下出现了节能步态,避免了固定成本安排带来的脆弱性。
- 高维模型(80/90 条肌肉)仍可维持自然外观的步态,尽管存在与生物力学建模精度相关的某些伪影。
- 该方法仅需极少的超参数调优,训练过程中无需运动捕捉数据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。