QUICK REVIEW

[论文解读] One Policy to Control Them All: Shared Modular Policies for Agent-Agnostic Control

Wenlong Huang, Igor Mordatch|arXiv (Cornell University)|Jul 9, 2020

Reinforcement Learning in Robotics参考文献 36被引用 26

一句话总结

本文提出共享模块化策略（SMP），一种单一、可重用的神经网络模块，通过模块间消息传递实现对多样化机器人形态的局部执行器控制。SMP 通过强化学习训练，在平面机器人（如双足、四足和跳跃型机器人）上实现了协调运动，且无需微调或重新训练即可泛化至未见过的形态。

ABSTRACT

Reinforcement learning is typically concerned with learning control policies tailored to a particular agent. We investigate whether there exists a single global policy that can generalize to control a wide variety of agent morphologies -- ones in which even dimensionality of state and action spaces changes. We propose to express this global policy as a collection of identical modular neural networks, dubbed as Shared Modular Policies (SMP), that correspond to each of the agent's actuators. Every module is only responsible for controlling its corresponding actuator and receives information from only its local sensors. In addition, messages are passed between modules, propagating information between distant modules. We show that a single modular policy can successfully generate locomotion behaviors for several planar agents with different skeletal structures such as monopod hoppers, quadrupeds, bipeds, and generalize to variants not seen during training -- a process that would normally require training and manual hyperparameter tuning for each morphology. We observe that a wide variety of drastically diverse locomotion styles across morphologies as well as centralized coordination emerges via message passing between decentralized modules purely from the reinforcement learning objective. Videos and code at https://huangwl18.github.io/modular-rl/

研究动机与目标

开发一种通用控制策略，可跨具有显著不同形态（包括不同数量的肢体和状态/动作空间维度）的机器人重复使用。
克服深度强化学习中针对特定机器人形态训练策略的局限性，后者需为每种形态单独训练并调整超参数。
探索去中心化、模块化策略结合消息传递是否可作为统一解决方案，实现无需集中协调的多样化运动行为。
研究单一策略是否能泛化至训练期间未见过的机器人变体，从而为机器人控制提供预训练先验。

提出的方法

将全局控制策略表示为一组相同、局部连接的神经网络模块，每个执行器对应一个模块，每个模块仅处理本地传感器输入。
通过可学习的消息传递实现模块间通信：每个模块向/从相邻执行器发送和接收消息向量，从而在机器人形态中传播信息。
将机器人结构建模为树状图结构，消息传递在上下行方向同时进行，使全局协调从局部交互中自然涌现。
使用标准策略梯度强化学习训练整个系统，所有模块共享参数以强化模块化与泛化能力。
采用类似图网络的架构来编码机器人形态，并促进连接执行器间的消息传递。
在多种机器人类型（双足、四足、单足）及其形态变体上评估性能，包括训练期间未见过的形态。

实验结果

研究问题

RQ1单一共享策略模块是否能控制具有不同肢体数量和状态/动作空间维度的多样化机器人形态？
RQ2去中心化模块间的消息传递是否能在无集中控制的情况下实现全局协调的运动行为？
RQ3在一组形态上训练的策略是否能泛化至训练期间未见过的新形态变体，而无需重新训练或调整超参数？
RQ4双向消息传递（自上而下与自下而上）在实现多样化机器人间复杂协调行为中起到何种作用？
RQ5策略架构的模块化特性如何支持在不同感觉运动配置的机器人之间实现泛化与复用？

主要发现

当以左脚作为根节点时，SMP 策略在训练中获得平均奖励 3709.87 ± 580.87，优于以躯干为根的变体（3215.04 ± 447.82）和整体基线模型（3592.70 ± 111.13）。
消息传递促进了稳定、周期性的运动模式的出现——t-SNE 可视化显示躯干消息呈现与步态周期同步的周期性、时间锁定模式。
通过自下而上的消息传递聚合所有肢体信息的躯干消息，捕捉了全局状态信息，并与随时间变化的机器人姿态强相关。
该策略成功泛化至训练期间未见的形态变体，展现出在多样化机器人结构间强大的鲁棒性与迁移能力。
上下行双向消息传递对协调至关重要，消融实验表明，若移除消息传递，性能显著下降。
尽管系统为去中心化且聚焦于局部，但通过学习到的消息传递实现了类似集中控制的协调，表明复杂全局行为可从局部、模块化交互中自然涌现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。