QUICK REVIEW

[论文解读] Deep Reinforcement Learning for High Precision Assembly Tasks

Tadanobu Inoue, Giovanni De Magistris|arXiv (Cornell University)|Aug 14, 2017

Robot Manipulation and Learning参考文献 7被引用 29

一句话总结

本文提出一种基于长短期记忆（LSTM）网络的深度强化学习方法，使7轴机械臂仅使用标准的力-扭矩传感器和位置传感器，即可完成亚微米级间隙的高精度插孔装配任务。该方法在多种配置下均实现100%成功率，对初始位置和角度误差具有显著鲁棒性，且在速度和适应性方面优于传统固定模式方法。

ABSTRACT

High precision assembly of mechanical parts requires accuracy exceeding the robot precision. Conventional part mating methods used in the current manufacturing requires tedious tuning of numerous parameters before deployment. We show how the robot can successfully perform a tight clearance peg-in-hole task through training a recurrent neural network with reinforcement learning. In addition to saving the manual effort, the proposed technique also shows robustness against position and angle errors for the peg-in-hole task. The neural network learns to take the optimal action by observing the robot sensors to estimate the system state. The advantages of our proposed method is validated experimentally on a 7-axis articulated robot arm.

研究动机与目标

解决工业机器人定位精度不足而难以完成的高精度装配任务挑战。
减少传统编程与力传感控制方法中耗时的参数手动调优过程。
开发一种无需教学的、自适应的学习型方法，使机器人能够通过试错和传感器反馈自主学习装配技能。
在真实世界变化条件下（如初始位置偏移、角度错位和紧密间隙）验证该方法的鲁棒性。
证明使用标准工业传感器即可在工业装配任务中部署基于循环网络的强化学习方法的可行性。

提出的方法

系统使用循环神经网络（LSTM）处理来自6轴力-扭矩传感器和关节位置编码器的序列化传感器数据，以估计机器人的状态。
状态向量定义为 $\mathbf{s} = [F_x, F_y, F_z, M_x, M_y, \tilde{P}_x, \tilde{P}_y]$，其中 $F$ 和 $M$ 分别为平均力和力矩，$\tilde{P}_x, \tilde{P}_y$ 为估计的位置误差。
强化学习智能体学习两阶段任务：(1) 搜索阶段以定位孔位，(2) 插入阶段通过稀疏密集奖励函数实现对齐与插入。
采用稀疏密集奖励函数引导学习过程：密集奖励用于在插入阶段鼓励对齐行为，稀疏奖励仅在任务成功完成时触发（由 $\Delta P_z > 19\,\mathrm{mm}$ 定义）。
动作空间为离散型，包含五个预设动作，涉及在 $z$、$x$ 和 $y$ 方向上的受控运动，配以固定力和旋转指令。
该方法通过在线深度强化学习进行训练，策略网络根据累积的稀疏密集奖励函数进行更新。

实验结果

研究问题

RQ1具备LSTM策略的深度强化学习智能体是否能够在无需显式编程或参数调优的情况下学习高精度插孔任务？
RQ2所学策略对孔位的初始位置误差和角度错位的鲁棒性如何？
RQ3该方法是否能在超过机器人固有定位精度的紧密间隙（如10 μm）下实现可靠性能？
RQ4与传统固定模式力传感控制方法相比，该方法在执行时间与成功率方面的表现如何？
RQ5使用同一策略，该方法是否能跨不同间隙尺寸和倾斜角度实现泛化？

主要发现

所提方法在所有测试配置下（包括10 μm的紧密间隙和高达1.6°的倾斜角）均实现了100%的成功率，共完成100次试验。
在10 μm间隙、3 mm初始偏移且无倾斜（0°）条件下，平均总执行时间为3.47秒，显著快于传统方法的约5秒。
在20 μm间隙和1.6°倾斜条件下，平均总时间为4.36秒，表明对更大错位具有强鲁棒性。
在3 mm偏移条件下，搜索阶段平均耗时2.26秒，显示出对大初始误差的强适应能力。
在1.6°倾斜条件下，插入阶段耗时增至2.31秒，反映出需要更多对齐努力，但任务仍成功完成。
该方法在速度和鲁棒性方面均优于传统固定模式方法，尤其在大误差和紧密间隙条件下表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。