[论文解读] Self-Curriculum Model-based Reinforcement Learning for Shape Control of Deformable Linear Objects
本文提出一个两阶段框架,将基于模型的强化学习与在线视觉伺服结合,实现对可变形线性对象(DLO)形状的高效且精确控制,包括反向曲率的大变形,且具备零-shot 仿真到现实转移。
Precise shape control of Deformable Linear Objects (DLOs) is crucial in robotic applications such as industrial and medical fields. However, existing methods face challenges in handling complex large deformation tasks, especially those involving opposite curvatures, and lack efficiency and precision. To address this, we propose a two-stage framework combining Reinforcement Learning (RL) and online visual servoing. In the large-deformation stage, a model-based reinforcement learning approach using an ensemble of dynamics models is introduced to significantly improve sample efficiency. Additionally, we design a self-curriculum goal generation mechanism that dynamically selects intermediate-difficulty goals with high diversity through imagined evaluations, thereby optimizing the policy learning process. In the small-deformation stage, a Jacobian-based visual servo controller is deployed to ensure high-precision convergence. Simulation results show that the proposed method enables efficient policy learning and significantly outperforms mainstream baselines in shape control success rate and precision. Furthermore, the framework effectively transfers the policy trained in simulation to real-world tasks with zero-shot adaptation. It successfully completes all 30 cases with diverse initial and target shapes across DLOs of different sizes and materials. The project website is available at: https://anonymous.4open.science/w/sc-mbrl-dlo-EB48/
研究动机与目标
- 解决在大变形和反向曲率配置下,对可变形线性对象(DLO)的精确形状控制挑战。
- 通过模型基础学习与集合动力学模型提升 RL 在 DLO 操作中的样本效率。
- 开发自我课程目标生成机制,在训练中平衡目标难度与多样性。
- 通过在线雅可比矩阵为基础的视觉伺服,在小变形区实现高精度收敛。
- 在多种 DLO 上实现无需额外现实世界训练的仿真到现实转移。
提出的方法
- 两阶段框架:大变形阶段使用基于模型的 RL 与自我课程目标;小变形阶段使用基于雅可比矩阵的在线视觉伺服。
- 一个 Bi-LSTM 动力学模型集合用于预测 DLO 状态转移;精英模型产生合成数据以增强基于 SAC 的策略训练。
- 观测包含当前 DLO 形状 X、末端执行器位姿 r 与目标形状 Xd;动作为位移增量 Δr。
- 自我课程目标生成使用设想评估来识别中等难度的目标,并结合加权最远点采样以确保多样性。
- 小变形阶段的视觉伺服控制器在线估计雅可比矩阵,提供精确收敛。
- 当形状误差 e 下降到阈值以下时切换策略训练阶段;强化学习优化接近目标的闭环,同时视觉伺服确保精度。
实验结果
研究问题
- RQ1模型基础的 RL 结合集合动力学能否在复杂大变形 DLO 形状整形中实现样本高效学习?
- RQ2自我课程目标生成策略在初始形状与目标形状差异较大时,是否能提升策略学习?
- RQ3所提两阶段框架是否能从仿真推广到现实世界的不同尺寸与材料的 DLO 操作?
- RQ4在小变形区,整合的基于雅可比矩阵的视觉伺服阶段如何影响最终精度?
主要发现
- 所提方法在仿真中对直线和多样初始条件下,达到最高成功率并获得最低的平均最小形状误差。
- 带有难度筛选与多样性采样的自我课程机制显著提升训练稳定性和策略泛化。
- 基于模型的 RL 与集合动力学相比于无模型基线显著提升样本效率。
- 两阶段方法在跨三种 DLO 的真实世界任务中实现鲁棒的仿真到现实转移且无需在线再训练。
- 相较 MPC、视觉伺服和仅 RL 的基线,所提方法在大多数场景下表现出更高的精度和更快的收敛。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。