QUICK REVIEW

[论文解读] Shaping in Practice: Training Wheels to Learn Fast Hopping Directly in Hardware

Steve Heim, Felix Ruppert|arXiv (Cornell University)|Sep 29, 2017

Robotic Locomotion and Control参考文献 19被引用 8

一句话总结

本文提出训练轮——一种临时的机械改造，用于塑造奖励景观——以实现在基于硬件的单足机器人上的直接强化学习快速跳跃。通过减轻机器人的有效重力（通过负载卸载实现），该方法提高了从关键梯度集合中采样的概率，从而在具有碰撞的不稳定、欠驱动系统中实现稳定、高效的训练，单次试验在10分钟内成功完成跳跃。

ABSTRACT

Learning instead of designing robot controllers can greatly reduce engineering effort required, while also emphasizing robustness. Despite considerable progress in simulation, applying learning directly in hardware is still challenging, in part due to the necessity to explore potentially unstable parameters. We explore the concept of shaping the reward landscape with training wheels: temporary modifications of the physical hardware that facilitate learning. We demonstrate the concept with a robot leg mounted on a boom learning to hop fast. This proof of concept embodies typical challenges such as instability and contact, while being simple enough to empirically map out and visualize the reward landscape. Based on our results we propose three criteria for designing effective training wheels for learning in robotics. A video synopsis can be found at https://youtu.be/6iH5E3LrYh8.

研究动机与目标

解决在硬件中直接训练强化学习智能体的挑战，其中不稳定的动力学和稀疏奖励会阻碍学习。
通过避免复杂的基于模型的设计或奖励塑造，减少工程工作量。
探索一种实用的机械方法，通过临时、可逆的硬件改动来塑造学习景观。
证明训练轮可显著提高现实世界机器人运动任务中的样本效率和成功率。
建立适用于广泛机器人系统的有效训练轮设计准则。

提出的方法

该机器人是一个二维单足机器人，具有单个驱动的髋关节和一个被动的弹性踝关节，安装在吊臂上以限制运动在平面内。
学习任务是快速跳跃，对速度提供密集奖励，对损坏着陆（如脚跟先着地）施加惩罚。
通过负载卸载临时降低机器人的有效重力，模拟低重力环境，实现训练轮。
该方法使用无模型强化学习算法（PPO）对关节位置指令策略进行优化。
训练过程分阶段进行：从降低重力环境开始，然后过渡到中间环境，最后进入原始全重力环境。
环境之间的过渡采用启发式方法，目标是保持梯度连续性并避免从头开始重新训练。

实验结果

研究问题

RQ1如何通过训练轮——即临时机械改造——提升不稳定、基于硬件的机器人系统中强化学习的样本效率？
RQ2有效训练轮的关键设计准则是什么？这些准则需在易于实现的同时，有效塑造学习景观。
RQ3降低有效重力在多大程度上提高了从奖励景观中关键梯度集合采样的概率？
RQ4从简化环境到原始环境的分阶段过渡是否能实现更快收敛而不产生灾难性遗忘？
RQ5与内在动机或奖励塑造等替代方法相比，使用训练轮在鲁棒性和工程工作量方面有何差异？

主要发现

通过使用训练轮——具体为通过负载卸载降低有效重力——机器人在单次训练试验中不到10分钟内即学会快速跳跃，展现出极高的样本效率。
低重力环境显著提高了从关键梯度集合中采样的概率，使学习过程更加稳定可靠。
通过实证映射奖励景观，发现原始环境中关键梯度集合较小且稀疏，但在训练轮环境中则更加易访问。
从训练轮环境到原始环境的过渡是可行且有效的，成功策略可在各阶段间转移而无需完全重新训练。
作者识别出有效训练轮的三个关键准则：易于应用、显著提高从关键梯度集合中采样概率、以及在不同环境间平滑引导。
结果表明，通过训练轮进行机械塑造是一种实用、低投入的替代方案，相较于奖励塑造或复杂机械重构，尤其适用于不稳定、欠驱动系统。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。