[论文解读] Touch and Go: Learning from Human-Collected Vision and Touch
本文介绍了 Touch and Go——一个由人类收集的大型真实世界视觉-触觉数据集,并展示了基于自监督的触觉表示学习、触觉驱动的图像风格化,以及利用该数据进行的多模态未来触感预测。
The ability to associate touch with sight is essential for tasks that require physically interacting with objects in the world. We propose a dataset with paired visual and tactile data called Touch and Go, in which human data collectors probe objects in natural environments using tactile sensors, while simultaneously recording egocentric video. In contrast to previous efforts, which have largely been confined to lab settings or simulated environments, our dataset spans a large number of "in the wild" objects and scenes. To demonstrate our dataset's effectiveness, we successfully apply it to a variety of tasks: 1) self-supervised visuo-tactile feature learning, 2) tactile-driven image stylization, i.e., making the visual appearance of an object more consistent with a given tactile signal, and 3) predicting future frames of a tactile signal from visuo-tactile inputs.
研究动机与目标
- 推动从人类收集的视觉-触觉数据中学习,以捕捉在多样真实世界环境中丰富的材料特性。
- 创建一个覆盖室内和室外场景、材料多样的大规模野外视觉-触觉数据集。
- 展示涵盖自监督触觉表示学习、跨模态图像风格化和未来触觉预测的应用。
提出的方法
- 通过让人工数据采集者在室内外环境中使用 GelSight 触觉传感器探测对象,同时记录自我视角视频,来收集大规模视觉-触觉数据集(Touch and Go)。
- 应用对比多视角编码方法,通过匹配对应的视觉-触觉对并对比不匹配的对,学习视觉-触觉表示。
- 扩展基于 CUT 的触觉驱动图像风格化框架,学习跨模态关联并生成其纹理与给定触觉信号共同出现的图像。
- 改编一个多模态视频预测架构,以从视觉-触觉输入序列预测未来触觉帧,使用 L1 损失和感知损失。
- 为数据标注材料类别和按压中的帧,以促进分析和下游评估。
实验结果
研究问题
- RQ1自监督学习是否能够利用成对的视觉与触觉数据,生成可推广到机器人抓取和材料理解的表示?
- RQ2触觉信息在多大程度上能够驱动图像风格化,以反映通过触觉观察到的材料属性?
- RQ3将视觉信息纳入是否会提升从视觉-触觉序列预测未来触觉信号的预测建模?
主要发现
- 该数据集包含大约 13.9k 次检测触碰和约 3,971 个对象实例,覆盖室内外场景与多样材料。
- 通过自监督学习得到的触觉特征在机器人操作任务和数据集中材料识别任务上显著优于监督的 ImageNet 特征。
- 一种触觉驱动的图像风格化方法可以使图像反映触觉属性,如粗糙度或光滑度,在一致性指标上优于 CycleGAN 基线。
- 多模态(视觉+触觉)模型比仅触觉的模型提高未来触觉预测质量,且在较长预测时域上收益更大。
- 使用该视觉-触觉数据集进行自监督学习在抓取和材料理解方面的性能优于若干基线,包括在其他视觉-触觉数据集上训练的特征以及 ImageNet 特征。
- 该数据集的真实世界多样环境相较于以机器人为中心或合成数据集,在学习视觉-触觉表示方面具有优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。