[论文解读] End-to-end grasping policies for human-in-the-loop robots via deep reinforcement learning
本文提出了一种端到端深度强化学习(DRL)策略,用于人机协同机器人抓取,使用真实的真人伸手轨迹,绕过肌电信号(EMG)以提升鲁棒性。通过在 DEXTRON(一种结合蒙特卡洛增强真实轨迹的随机仿真环境)中进行训练,该方法在抓取任务中实现了75%的成功率,同时引入一种新型成功模型,为策略决策提供事后可解释性并实现失败预测。
State-of-the-art human-in-the-loop robot grasping is hugely suffered by Electromyography (EMG) inference robustness issues. As a workaround, researchers have been looking into integrating EMG with other signals, often in an ad hoc manner. In this paper, we are presenting a method for end-to-end training of a policy for human-in-the-loop robot grasping on real reaching trajectories. For this purpose we use Reinforcement Learning (RL) and Imitation Learning (IL) in DEXTRON (DEXTerity enviRONment), a stochastic simulation environment with real human trajectories that are augmented and selected using a Monte Carlo (MC) simulation method. We also offer a success model which once trained on the expert policy data and the RL policy roll-out transitions, can provide transparency to how the deep policy works and when it is probably going to fail.
研究动机与目标
- 为解决基于EMG控制假肢手时的鲁棒性问题,通过消除对EMG信号的依赖。
- 开发一种从真实真人伸手轨迹中学习的策略,以实现更自然、直观的机器人抓取。
- 构建一个随机仿真环境(DEXTRON),支持使用真实人类运动数据和蒙特卡洛增强进行训练。
- 引入一种成功模型,为强化学习策略提供事后可解释性并实现失败预测。
- 通过揭示策略行为的透明性,实现人机在协作抓取中的相互适应。
提出的方法
- 使用从多名受试者收集的真实真人伸手轨迹,训练端到端深度强化学习策略。
- 通过蒙特卡洛模拟对真实轨迹进行增强,以提升数据多样性并改善策略泛化能力。
- 采用模仿学习(IL)与强化学习(RL)相结合的混合方法,具体为RLIL,以加速策略收敛。
- 在dm_control中设计DEXTRON,一种随机仿真环境,用于模拟具有延迟和稀疏奖励的人机协作。
- 在专家和RL策略的轨迹回放数据上训练成功模型,以预测最终抓取结果并解释策略决策。
- 将成功模型用作具备失败与成功感知能力的函数,为策略行为提供实时反馈。
实验结果
研究问题
- RQ1在不依赖EMG信号的前提下,基于真实真人伸手轨迹训练的端到端RL策略能否实现鲁棒且直观的抓取?
- RQ2在具有稀疏奖励的随机环境中,结合模仿学习与强化学习如何提升策略学习效果?
- RQ3在专家和RL轨迹回放数据上训练的成功模型,能否提供可靠的策略决策与失败模式的事后解释?
- RQ4结合真实轨迹增强的DEXTRON仿真环境,在多大程度上提升了策略的泛化能力与可迁移性?
- RQ5强化学习策略中的可解释性与透明性在多大程度上能增强人机协作中的人类信任与相互适应?
主要发现
- RLIL 0.1方法在所有测试方法中实现了最高的平均累积奖励,并在抓取任务中达到最大75%的成功率(15/20)。
- 尽管奖励稀疏,DEXTRON中的纯RL训练仍成功学习到有用的抓取策略,优于以往在类似设置下未能学习成功的基线方法。
- 成功模型在5次采样轨迹回放中成功预测了4次失败结果,识别出关键失败点,如过早的手部闭合。
- 成功模型通过检测因次优动作导致的成功窗口缩小现象(尤其在轨迹早期阶段),表现出失败感知能力。
- 该方法在仿真中实现了约4小时(750k帧)的可行训练时长,使实际部署成为可能。
- 成功模型为策略行为提供了可操作的洞察,例如早期闭合指令带来的碰撞风险,从而增强了系统的透明度与可信度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。