[论文解读] The Feeling of Success: Does Touch Sensing Help Predict Grasp Outcomes?
一个端到端的视-触觉深度神经网络能够预测抓取结果,将触觉传感与视觉整合显著提升抓取结果预测和现实世界的抓取性能。
A successful grasp requires careful balancing of the contact forces. Deducing whether a particular grasp will be successful from indirect measurements, such as vision, is therefore quite challenging, and direct sensing of contacts through touch sensing provides an appealing avenue toward more successful and consistent robotic grasping. However, in order to fully evaluate the value of touch sensing for grasp outcome prediction, we must understand how touch sensing can influence outcome prediction accuracy when combined with other modalities. Doing so using conventional model-based techniques is exceptionally difficult. In this work, we investigate the question of whether touch sensing aids in predicting grasp outcomes within a multimodal sensing framework that combines vision and touch. To that end, we collected more than 9,000 grasping trials using a two-finger gripper equipped with GelSight high-resolution tactile sensors on each finger, and evaluated visuo-tactile deep neural network models to directly predict grasp outcomes from either modality individually, and from both modalities together. Our experimental results indicate that incorporating tactile readings substantially improve grasping performance.
研究动机与目标
- 通过结合视觉和触觉来激发机器人抓取的多模态感知。
- 评估触觉感知是否在单纯视觉之上提升抓取结果的预测。
- 开发一个端到端的神经网络,处理视觉和触觉输入以预测抓取成功。
- 在结果预测和现实世界抓取性能方面,定量比较单模态与多模态模型。
提出的方法
- 使用配备 GelSight 的两指夹持器收集超过 9,000 次抓取尝试。
- 训练端到端的 CNN 模型,利用 RGB 与 GelSight 图像预测抓取成功。
- 在网络的后期将视觉与触觉特征融合,作为输入送入全连接分类器。
- 为视觉使用两个时间点(抓取前和抓取时),并对 GelSight 输入使用时序差(I_Tb - I_Ta)。
- 在 ImageNet 上对视觉和触觉 CNN 进行预训练,并在训练中进行微调。
- 通过跨对象的分割进行模型评估,并比较单模态与多模态的性能。
实验结果
研究问题
- RQ1与仅视觉相比,触觉感知是否能改善抓取结果的预测?
- RQ2视-触觉多模态模型是否在结果预测方面优于单模态模型?
- RQ3在未见物体上的现实世界抓取选择中,视-触觉模型表现如何?
主要发现
- 触觉模型在预测抓取结果方面优于视觉模型。
- 多模态视-触觉模型在测试中的最高准确率为 77.8±0.3%。
- 仅视觉、深度和单一触觉模型的准确率较低(例如 仅视觉 68.8±1.0%、深度 73.2±0.7%)。
- 同时使用两个 GelSight 传感器(双触觉)获得 75.6±0.8% 的准确率,GelSight L 与 GelSight R 的表现略有差异(75.3±1.4% 和 73.8±1.7%)。
- 手工设计的 Indentation 特征达到 72.7±0.8%,这表明端到端模型具有优势,但在小数据集上手工特征仍有竞争力。
- 在现实世界的抓取中,视-触觉模型在未见对象上的成功率比仅视觉模型高约 14 个百分点(94% 对 80%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。