[论文解读] DexTac: Learning Contact-aware Visuotactile Policies via Hand-by-hand Teaching
DexTac 将手把手的运动知觉演示与多维视触觉传感结合,学习预测力和接触区域(CoP)的接触感知策略,以实现灵巧操作,特别在注射任务中取得高成功率。它展示了强泛化和数据效率,且触觉控制器实现接触感知执行。
For contact-intensive tasks, the ability to generate policies that produce comprehensive tactile-aware motions is essential. However, existing data collection and skill learning systems for dexterous manipulation often suffer from low-dimensional tactile information. To address this limitation, we propose DexTac, a visuo-tactile manipulation learning framework based on kinesthetic teaching. DexTac captures multi-dimensional tactile data-including contact force distributions and spatial contact regions-directly from human demonstrations. By integrating these rich tactile modalities into a policy network, the resulting contact-aware agent enables a dexterous hand to autonomously select and maintain optimal contact regions during complex interactions. We evaluate our framework on a challenging unimanual injection task. Experimental results demonstrate that DexTac achieves a 91.67% success rate. Notably, in high-precision scenarios involving small-scale syringes, our approach outperforms force-only baselines by 31.67%. These results underscore that learning multi-dimensional tactile priors from human demonstrations is critical for achieving robust, human-like dexterous manipulation in contact-rich environments.
研究动机与目标
- 提供高质量的多模态专家演示,捕捉关节状态、RGB 视觉和触觉数据(包括接触区域信息)。
- 学习一个接触感知策略,在灵巧操作中同时预测力和接触区域(CoP)。
- 部署一个将策略预测与触觉线索结合的触觉控制器,实时控制手指力和接触区域。
- 在具挑战性的一手注射任务中展示更高的成功率,并显示对未见注射器尺寸的泛化能力。
提出的方法
- 通过手把手的运动教练来收集多模态专家数据,使用指尖护套遮挡人手以减少域偏移。
- 捕捉RGB图像、GelStereo BioTip 传感器的触觉图像、关节状态,以及每个指尖的作用力与压力中心(CoP)。
- 训练基于 ACT 的策略网络,将多模态状态映射到动作块,包括关节变化、触觉力和 CoP。
- 引入潜在变量 z,并带有 KL 散度项以正则化策略潜在空间并实现序列级规划。
- 部署带有触觉控制器的系统,使用预测的力和 CoP 来调整受力的位参考,从而实现接触感知的运动。
- 将策略学习公式化为不完美模仿学习,损失在动作块上最小化 L1 误差,并包含 KL 正则化项。
实验结果
研究问题
- RQ1将触觉信息,尤其是 CoP,纳入是否能提升注射任务中的灵巧操作性能?
- RQ2接触感知策略对未见注射器尺寸的零-shot 泛化能力如何?
- RQ3随着演示数据量增加,性能如何扩展(数据效率)?
主要发现
- DexTac 在不同尺寸的注射器上平均成功率为 91.67%,比仅力的基线高出 31.67%。
- 对 20 mL 注射器实现零-shot 转移,成功率为 65%,显示强泛化能力。
- 消融实验表明去除触觉传感或 CoP 会降低性能,而触觉+CoP 组合获得最高的成功率。
- 数据效率显示随着演示增多,性能提升,约在每个尺寸 30 次演示时趋于稳定。
- 纯粹的触觉实验表明在动态抓握与推拉任务中视觉有帮助,而在持续接触情形中可用最少视觉输入实现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。