[论文解读] MAT: Multi-Fingered Adaptive Tactile Grasping via Deep Reinforcement Learning
MAT 提出了一种深度强化学习策略,使多指机器人手能够利用本体感觉和触觉反馈实现闭环、基于触觉的抓取,显著提升了相较于仅依赖视觉的开环系统抓取的成功率。该策略完全在仿真环境中训练,模拟到现实的差距极小,在真实世界新物体上实现 98.7% 的成功率,校准误差不超过 5cm,表现出对视觉遮挡和系统错位的高度鲁棒性。
Vision-based grasping systems typically adopt an open-loop execution of a planned grasp. This policy can fail due to many reasons, including ubiquitous calibration error. Recovery from a failed grasp is further complicated by visual occlusion, as the hand is usually occluding the vision sensor as it attempts another open-loop regrasp. This work presents MAT, a tactile closed-loop method capable of realizing grasps provided by a coarse initial positioning of the hand above an object. Our algorithm is a deep reinforcement learning (RL) policy optimized through the clipped surrogate objective within a maximum entropy RL framework to balance exploitation and exploration. The method utilizes tactile and proprioceptive information to act through both fine finger motions and larger regrasp movements to execute stable grasps. A novel curriculum of action motion magnitude makes learning more tractable and helps turn common failure cases into successes. Careful selection of features that exhibit small sim-to-real gaps enables this tactile grasping policy, trained purely in simulation, to transfer well to real world environments without the need for additional learning. Experimentally, this methodology improves over a vision-only grasp success rate substantially on a multi-fingered robot hand. When this methodology is used to realize grasps from coarse initial positions provided by a vision-only planner, the system is made dramatically more robust to calibration errors in the camera-robot transform.
研究动机与目标
- 解决在存在校准误差和视觉遮挡时,仅依赖视觉的开环抓取策略的失败问题。
- 开发一种利用触觉和本体感觉反馈实现实时自适应的闭环抓取策略。
- 实现高保真度的模拟到现实的触觉抓取策略迁移,无需真实世界微调。
- 在视觉系统失效的杂乱环境和新物体场景中,提升抓取成功率。
- 与现有基于视觉的抓取规划器集成,弥合实现成功抓取的最后差距。
提出的方法
- 使用截断的代理目标训练最大熵深度强化学习策略,以平衡探索与利用。
- 策略基于关节角度、二值化触觉接触以及触觉接触的笛卡尔位置,控制手指的精细运动和重新抓取调整。
- 采用课程学习策略,逐步增加手指闭合动作的粒度,从粗粒度的开环策略开始。
- 精心选择观测和动作模态,以最小化模拟到现实的领域差距,包括关节状态和触觉传感器数据。
- 策略完全在仿真中训练,并直接部署于真实硬件上,无需进一步调整。
- 系统通过在初始抓取质量不足时基于触觉反馈重新打开手指并重新定位末端执行器,实现重新抓取。
实验结果
研究问题
- RQ1基于触觉的闭环强化学习策略是否能显著提升相较于仅依赖视觉的开环系统抓取的成功率?
- RQ2在机器人-相机变换存在校准误差的情况下,模拟到现实的触觉抓取策略的鲁棒性如何?
- RQ3在未进行微调的情况下,能否将仿真中训练的策略直接迁移到真实世界环境中?
- RQ4触觉反馈在多大程度上能够实现对因初始姿态不佳或物体形状不适配导致的抓取失败的恢复?
- RQ5课程学习是否能提升复杂多指抓取任务中的样本效率和最终性能?
主要发现
- 在真实世界实验中,MAT 在 5cm 校准噪声下对新物体的抓取成功率高达 98.7%,而仅依赖视觉的基线系统仅为 20.0%。
- 在仿真中,MAT 在 7.5cm 校准噪声下仍保持高性能(96.4% 成功率),而仅依赖视觉的基线系统性能下降至 50% 以下。
- MAT 在真实世界中的成功率与仿真性能在统计上无显著差异,证实了高保真度的模拟到现实迁移。
- 在所有测试条件下,包括单物体和杂乱场景,MAT 的成功率均比仅依赖视觉的基线系统高出 4.4% 至 5.2%。
- 该策略通过基于触觉反馈重新打开并重新定位手部,成功从失败抓取中恢复,这是开环系统所不具备的能力。
- 消融实验证实,触觉反馈对鲁棒性至关重要,MAT 在仿真和真实世界环境中均优于仅依赖触觉的基线系统。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。