[论文解读] Learning a Decentralized Multi-Arm Motion Planner
该论文提出了一种基于多智能体强化学习与Soft Actor-Critic(SAC)算法的去中心化、闭环多臂运动规划方法,结合BiRRT生成的专家示范,实现了在5–10根机械臂的动态环境中子线性扩展与超过90%的成功率,尽管训练仅在1–4根机械臂的静态目标系统上进行。
We present a closed-loop multi-arm motion planner that is scalable and flexible with team size. Traditional multi-arm robot systems have relied on centralized motion planners, whose runtimes often scale exponentially with team size, and thus, fail to handle dynamic environments with open-loop control. In this paper, we tackle this problem with multi-agent reinforcement learning, where a decentralized policy is trained to control one robot arm in the multi-arm system to reach its target end-effector pose given observations of its workspace state and target end-effector pose. The policy is trained using Soft Actor-Critic with expert demonstrations from a sampling-based motion planning algorithm (i.e., BiRRT). By leveraging classical planning algorithms, we can improve the learning efficiency of the reinforcement learning algorithm while retaining the fast inference time of neural networks. The resulting policy scales sub-linearly and can be deployed on multi-arm systems with variable team sizes. Thanks to the closed-loop and decentralized formulation, our approach generalizes to 5-10 multi-arm systems and dynamic moving targets (>90% success rate for a 10-arm system), despite being trained on only 1-4 arm planning tasks with static targets. Code and data links can be found at this https URL.
研究动机与目标
- 为解决集中式运动规划器在多臂机器人系统中随团队规模呈指数级增长的可扩展性限制。
- 通过用闭环、去中心化策略替代开环控制,实现在动态环境中的快速、实时运动规划。
- 通过引入经典采样式规划器(如BiRRT)生成的专家示范,提升强化学习中的样本效率与学习稳定性。
- 开发一种可扩展且灵活的框架,适用于不同团队规模与动态目标条件的泛化。
- 在无需为每种配置进行大量重新训练的前提下,实现在复杂多臂场景中的高成功率。
提出的方法
- 使用Soft Actor-Critic(SAC)训练去中心化策略,基于工作空间状态和目标末端执行器位姿的局部观测来控制单个机器人臂。
- 利用BiRRT采样式运动规划算法生成专家示范,以引导强化学习过程。
- 策略在1–4根机械臂系统上使用静态目标进行训练,但由于闭环、去中心化设计,可泛化至5–10根机械臂系统及动态目标。
- 观测空间包括局部工作空间状态和目标位姿,使每个智能体能基于自身感知独立行动。
- 利用经典规划器(如BiRRT)作为数据源,可提升样本效率,并在训练期间确保轨迹可行性。
- 所得到的策略实现了团队规模的子线性运行时扩展,支持在大规模多臂系统中实现实时部署。
实验结果
研究问题
- RQ1在小规模多臂系统上训练的去中心化、闭环运动规划器,能否泛化至包含5–10根机械臂的大规模系统?
- RQ2尽管仅在静态目标上进行训练,该规划器在具有移动目标的动态环境中表现如何?
- RQ3将强化学习与经典规划器(如BiRRT)生成的专家示范相结合,是否能提升样本效率与最终性能?
- RQ4该规划器是否能实现团队规模的子线性扩展,避免集中式规划器的指数级运行时间增长?
- RQ5在包含可变团队规模与动态目标的复杂、杂乱环境中,该策略的成功率如何?
主要发现
- 尽管仅在1–4根机械臂的静态目标系统上进行训练,该规划器在包含10根机械臂的动态移动目标环境中仍实现了超过90%的成功率。
- 该方法实现了团队规模的子线性扩展,支持在大规模多臂系统中高效实现实时规划。
- 得益于闭环与去中心化策略结构,无需重新训练即可实现对更大团队规模与动态目标的泛化。
- 整合BiRRT生成的专家示范显著提升了学习效率与策略性能。
- 该策略在多种配置下均保持高性能,展示了在复杂环境中强大的鲁棒性与灵活性。
- 该方法在可扩展性与对实时环境中动态变化的适应能力方面,优于传统集中式规划器。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。