QUICK REVIEW

[论文解读] Residual Learning from Demonstration.

Todor Davchev, Kevin Sebastian Luck|arXiv (Cornell University)|Aug 18, 2020

Robot Manipulation and Learning参考文献 17被引用 5

一句话总结

该论文提出了一种基于示范的残差学习（rLfD）框架，将动态运动基元（DMPs）与基于强化学习的残差校正策略相结合，以提升涉及接触和摩擦的机器人插装任务性能。该方法直接在完整机器人位姿的任务空间中运行，显著提升了DMP在模拟和真实世界插装任务中的泛化能力和成功率。

ABSTRACT

Contacts and friction are inherent to nearly all robotic manipulation tasks. Through the motor skill of insertion, we study how robots can learn to cope when these attributes play a salient role. In this work we propose residual learning from demonstration (rLfD), a framework that combines dynamic movement primitives (DMP) that rely on behavioural cloning with a reinforcement learning (RL) based residual correction policy. The proposed solution is applied directly in task space and operates on the full pose of the robot. We show that rLfD outperforms alternatives and improves the generalisation abilities of DMPs. We evaluate this approach by training an agent to successfully perform both simulated and real world insertions of pegs, gears and plugs into respective sockets.

研究动机与目标

为解决涉及摩擦和柔顺性的接触密集型机器人操作挑战，特别是插装任务。
提升基于行为克隆的DMP在接触动力学存在情况下的泛化能力和鲁棒性。
开发一种在任务空间中运行的策略，通过残差强化学习校正DMP轨迹。
在具有不同几何形状（如圆柱销、齿轮、插头）的模拟和真实世界插装任务中验证该框架。

提出的方法

该框架使用通过行为克隆训练的动态运动基元（DMPs）生成初始轨迹策略。
通过强化学习学习残差校正策略，实现实时优化DMP生成的轨迹。
残差策略直接在机器人完整6D位姿的任务空间中运行，确保接触过程中的精确控制。
该方法以分层方式集成DMP与RL，其中DMP提供先验运动结构，而RL策略则校正由接触引起的偏差。
残差策略在仿真环境中端到端训练，并通过极少的领域随机化直接迁移到真实世界。
该方法通过适应接触力变化和几何公差差异，实现安全且鲁棒的插装。

实验结果

研究问题

RQ1与纯行为克隆相比，DMP与RL的混合方法是否能提升在接触密集型机器人插装任务中的泛化能力？
RQ2在任务空间中进行残差校正如何增强对接触动力学和摩擦的鲁棒性？
RQ3在仿真中训练的策略在面对不同几何形状的真实世界插装任务中，其泛化能力能达到何种程度？
RQ4与替代的模仿学习或纯强化学习基线相比，DMP与RL的集成在成功率和样本效率方面表现如何？

主要发现

rLfD框架在模拟和真实世界插装任务中均实现了比标准DMP和替代模仿学习基线更高的成功率。
残差校正策略显著提升了泛化能力，使不同几何形状（如圆柱销、齿轮、插头）的插装均能成功完成。
该方法在仿真到现实的迁移中表现出有效泛化，仅存在极小的模拟到现实域偏移，展现出对接触动力学的强鲁棒性。
DMP与RL的集成相比从零开始训练RL，实现了更快的收敛速度和更稳定的训练过程。
任务空间中的残差策略能够在接触过程中实现精确适应，降低错位或卡滞的风险。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。