QUICK REVIEW

[论文解读] VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data

Snehal Dikhale, Karankumar Patel|arXiv (Cornell University)|Jan 4, 2026

Advanced Sensor and Energy Harvesting Materials被引用 0

一句话总结

论文提出了一种将视觉与触觉数据融合的 visuo-tactile 网络，用以估计机器人手持物体的6D姿态，显示在仅视觉的方法上有提升，并实现从仿真数据到真实机器人系统的迁移。

ABSTRACT

Knowledge of the 6D pose of an object can benefit in-hand object manipulation. In-hand 6D object pose estimation is challenging because of heavy occlusion produced by the robot's grippers, which can have an adverse effect on methods that rely on vision data only. Many robots are equipped with tactile sensors at their fingertips that could be used to complement vision data. In this paper, we present a method that uses both tactile and vision data to estimate the pose of an object grasped in a robot's hand. To address challenges like lack of standard representation for tactile data and sensor fusion, we propose the use of point clouds to represent object surfaces in contact with the tactile sensor and present a network architecture based on pixel-wise dense fusion. We also extend NVIDIA's Deep Learning Dataset Synthesizer to produce synthetic photo-realistic vision data and corresponding tactile point clouds. Results suggest that using tactile data in addition to vision data improves the 6D pose estimate, and our network generalizes successfully from synthetic training to real physical robots.

研究动机与目标

为在手物体的6D姿态估计提供动机，即在夹具遮挡严重时限制视野的视觉方法的局限性。
提出一个对触觉传感器不变的表示，即在指部接触处的物体表面点云。
开发一个包含像素级和点级融合的双分支 visuo-tactile 网络来估计6D姿态。
扩展 NDDS 以合成具有相应触觉点云的多 YCB 物体的仿真真实感视觉数据。
在纳入触觉数据时展示姿态估计的改进，并评估向真实机器人设置的迁移。

提出的方法

将触觉数据表示为指部与物体接触位置的物体表面点云，以标准化跨传感器的触觉输入。
使用两通道网络，视觉和触觉分支；在视觉通道通过像素级密集融合融合颜色+深度，在触觉通道通过触觉深度与触觉表面点云进行融合。
使用从视觉与触觉嵌入中融合得到的全局特征来指导输出平移、旋转和每个特征的置信度的姿态估计器。
采用旋转估计的孪生网络结构以对齐视觉与触觉流。
使用对 NVIDIA NDDS 扩展的合成 visuo-tactile 数据集进行训练，该数据集对每个对象包含2万条样本，覆盖11个 YCB 物体。

实验结果

研究问题

RQ1将触觉数据与视觉信息结合是否在遮挡下改善在手物体的6D姿态估计？
RQ2触觉传感器不变的表示是否能在不同夹持器/传感器上实现有效的 visuo-tactile 融合？
RQ3合成的 visuo-tactile 数据是否能泛化到真实的机器人设置？
RQ4遮挡水平和触觉接触点数量对姿态估计精度有何影响？
RQ5所提方法与仅视觉的基线及最先进的视觉方法相比有何差异？

主要发现

visuo-tactile 网络在合成数据集的大多数对象上在位姿误差和角度误差方面优于仅视觉的基线。
在严重遮挡下，所提方法的位移误差约为0.4 cm，而基线为0.78 cm，角度误差为11.5°对13.8°。
当触觉输入减少到4个点时，方法仍然鲁棒，仍优于仅视觉基线。
在真实机器人部署的定性结果显示，相较于仅视觉基线，帧间稳定性更好、姿态偏差更小。
消融研究显示孪生连线、全局特征和视觉特征带来提升，其中视觉特征对角度精度贡献显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。