[论文解读] Robotic Pick-and-Place of Novel Objects in Clutter with Multi-Affordance Grasping and Cross-Domain Image Matching
本文提出了一套机器人抓取与放置系统,通过多 affordance 抓取和跨域图像匹配技术,实现了在杂乱环境中对新物体的无对象依赖抓取与识别。通过直接从 RGB-D 图像预测抓取 affordance,并利用双流卷积神经网络将抓取到的物体与产品图像进行匹配,该系统在无需任务特定训练的情况下实现了高成功率,荣获 2017 年亚马逊机器人挑战赛分拣任务第一名。
This paper presents a robotic pick-and-place system that is capable of grasping and recognizing both known and novel objects in cluttered environments. The key new feature of the system is that it handles a wide range of object categories without needing any task-specific training data for novel objects. To achieve this, it first uses a category-agnostic affordance prediction algorithm to select and execute among four different grasping primitive behaviors. It then recognizes picked objects with a cross-domain image classification framework that matches observed images to product images. Since product images are readily available for a wide range of objects (e.g., from the web), the system works out-of-the-box for novel objects without requiring any additional training data. Exhaustive experimental results demonstrate that our multi-affordance grasping achieves high success rates for a wide variety of objects in clutter, and our recognition algorithm achieves high accuracy for both known and novel grasped objects. The approach was part of the MIT-Princeton Team system that took 1st place in the stowing task at the 2017 Amazon Robotics Challenge. All code, datasets, and pre-trained models are available online at http://arc.cs.princeton.edu
研究动机与目标
- 解决在无需任务特定训练数据的情况下,于杂乱环境中稳健抓取并识别新物体的挑战。
- 使机器人系统仅依赖网络上易获取的产品图像,即可处理各种未知物体。
- 开发一种将抓取规划与物体识别解耦的系统,实现‘先抓取,后提问’的操作模式,以提高识别的可靠性。
- 设计一种可扩展的解决方案,适用于仓库自动化和服务机器人等实际应用场景,其中物体种类繁多且数据采集不切实际。
提出的方法
- 采用全卷积网络(FCN)直接从 RGB-D 图像生成密集的、像素级的四种基本抓取动作(如侧向抓取、吸力抓取)的 affordance 图。
- 在不进行物体分割或分类的前提下,选择并执行 affordance 值最高的抓取动作。
- 使用双流 Siamese 风格的卷积神经网络,将抓取到的物体观测图像与网络上获取的产品图像进行匹配,实现零样本识别。
- 利用跨域图像匹配技术适应新物体,无需重新训练,仅依赖代表性产品图像。
- 将抓取规划与识别模块整合为一个端到端的实时处理流水线,结合主动感知。
- 使用真实机器人交互数据和网络爬取的产品图像对系统进行端到端训练,避免使用合成数据或对象特定标注。
实验结果
研究问题
- RQ1机器人系统是否能在无需任务特定训练数据的情况下,对杂乱环境中多样化的新型物体实现高抓取成功率?
- RQ2跨域图像匹配是否能够仅通过网络获取的产品图像实现对抓取物体的高精度识别,而无需重新训练?
- RQ3一种无对象依赖的抓取规划方法——优先预测 affordance 而非识别物体身份——是否能提升在杂乱场景中的鲁棒性与可靠性?
- RQ4‘先抓取,后提问’范式是否在识别新物体的准确性方面优于传统的先识别后抓取流水线?
- RQ5在高物体多样性场景(如仓储物流或家庭服务)中,系统在无需迭代数据采集的情况下,其可扩展性在多大程度上得以实现?
主要发现
- 多 affordance 抓取框架在杂乱环境中对各类物体(包括柔软、易变形及被遮挡的物体)均实现了高成功率。
- 跨域图像匹配系统在仅使用少量网络爬取的产品图像作为参考的情况下,对已知和新物体均实现了高识别准确率。
- 该系统在 2017 年亚马逊机器人挑战赛分拣任务中成功分拣了所有已知和新物体,超越所有其他参赛队伍,荣获第一名。
- ‘先抓取,后提问’方法通过在抓取后将物体从杂乱背景中分离,显著提升了识别可靠性,减少了视觉匹配中的歧义。
- 系统在无需任何微调或额外数据采集的情况下,对新物体表现出强大的泛化能力,仅依赖网络上可获取的产品图像。
- 无对象依赖的抓取规划方法在高杂乱场景中比基于分割的方法更具鲁棒性,因为在这些场景中物体边界和身份往往不明确。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。