QUICK REVIEW

[论文解读] Learning and Transfer of Modulated Locomotor Controllers

Nicolas Heess, Gregory Wayne|arXiv (Cornell University)|Oct 17, 2016

Robotic Locomotion and Control参考文献 25被引用 105

一句话总结

本文提出一种分层运动控制架构，包含一个预训练的低级脊髓模块，其输出由高级皮质控制器调制，在端到端学习失败的情况下，能够稳健地迁移到具有稀疏奖励的多样化运动任务。

ABSTRACT

We study a novel architecture and training procedure for locomotion tasks. A high-frequency, low-level "spinal" network with access to proprioceptive sensors learns sensorimotor primitives by training on simple tasks. This pre-trained module is fixed and connected to a low-frequency, high-level "cortical" network, with access to all sensors, which drives behavior by modulating the inputs to the spinal network. Where a monolithic end-to-end architecture fails completely, learning with a pre-trained spinal module succeeds at multiple high-level tasks, and enables the effective exploration required to learn from sparse rewards. We test our proposed architecture on three simulated bodies: a 16-dimensional swimming snake, a 20-dimensional quadruped, and a 54-dimensional humanoid. Our results are illustrated in the accompanying video at https://youtu.be/sboPYvhpraQ

研究动机与目标

激发模块化、分层的运动控制，仿照生物学上脊髓原语与皮质调制之间的分工。
开发一个两级控制器，将固定的低级模块调制以驱动行为。
通过冻结低级控制器并训练高级调制器，实现在新任务上的迁移。
在多种仿真体和具有稀疏奖励的迁移任务上展示该方法。

提出的方法

提出一个两级架构：低级脊髓控制器以高频率接收本体感觉输入运行，高级皮质控制器以较慢的时间尺度运行并具有完整观测。
高级控制器输出一个调制信号 c_t，偏置低级控制器；c_t 每 K 步更新，可以是随机的，以诱导相关的探索。
使用广义策略梯度（actor-critic）结合价值函数基线和 lambda-returns（R_t^λ）来训练预训练和迁移阶段。
采用重参数化技巧通过随机的高层调制进行反向传播，使梯度流向高层控制器。
在带有形塑奖励的简单运动任务上对低级控制器进行预训练，然后冻结它并为具有稀疏奖励的迁移任务训练高级调制器。
将模块化方法与端到端（FF/LSTM）基线以及诸如重用预训练的 FF 网络或用新输入映射初始化等变体进行比较。

实验结果

研究问题

RQ1在被更高级网络调制的情况下，固定的、预训练的低级运动原语是否能解决端到端学习困难的稀疏奖励下的复杂任务？
RQ2通过高级控制器引入的分层噪声是否比仅有动作空间噪声更能促成更连贯、有效的探索？
RQ3学得的低级原语在不同形态（蛇形、四足、类人）和任务（目标寻路、峡谷穿越、足球、回旋道）上能迁移到何种程度？
RQ4时间尺度分离和信息隐藏在跨任务鲁棒复用运动原语方面有何作用？

主要发现

一个预训练的低级运动控制器，在较慢的高级控制器调制下，解决了端到端学习失败的若干迁移任务。
分层噪声在原语层面引入时空相关的探索，从而在稀疏奖励任务中改善探索。
在三种体型（蛇形、四足、类人）及多项任务（目标寻路、峡谷穿越、足球、回旋道）中，该模块化方法展现出有效的迁移，而端到端学习则较困难。
低级原语表现出连贯、可复用的运动行为，可以被调用并调制以实现多样化目标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。