[论文解读] End-to-End Learning of Semantic Grasping
本文提出了一种基于单目RGB图像的端到端双流深度学习框架,用于语义机器人抓取。该方法将空间抓取规划(背侧流)与物体类别识别(腹侧流)解耦,利用自监督机器人数据收集和半监督标签传播,在仅使用极少人工标注标签的情况下进行训练,相较于非端到端基线模型和单流模型,性能显著提升。
We consider the task of semantic robotic grasping, in which a robot picks up an object of a user-specified class using only monocular images. Inspired by the two-stream hypothesis of visual reasoning, we present a semantic grasping framework that learns object detection, classification, and grasp planning in an end-to-end fashion. A "ventral stream" recognizes object class while a "dorsal stream" simultaneously interprets the geometric relationships necessary to execute successful grasps. We leverage the autonomous data collection capabilities of robots to obtain a large self-supervised dataset for training the dorsal stream, and use semi-supervised label propagation to train the ventral stream with only a modest amount of human supervision. We experimentally show that our approach improves upon grasping systems whose components are not learned end-to-end, including a baseline method that uses bounding box detection. Furthermore, we show that jointly training our model with auxiliary data consisting of non-semantic grasping data, as well as semantically labeled images without grasp actions, has the potential to substantially improve semantic grasping performance.
研究动机与目标
- 开发一种仅使用单目RGB图像即可根据高层语义指令选择并抓取物体的机器人抓取系统。
- 通过自监督数据收集和半监督标签传播,解决语义抓取中人工标注数据有限的挑战。
- 通过整合辅助的非语义抓取数据和语义标注图像(无抓取动作)来提升语义抓取的泛化能力。
- 探究联合训练辅助数据是否能同时增强机器人抓取中的空间与语义推理能力。
提出的方法
- 模型采用双流神经网络:背侧流基于几何关系预测抓取成功率,腹侧流对被抓取物体进行分类。
- 通过自主机器人交互收集自监督数据,成功抓取后获取物体的近距离视图用于标注。
- 半监督标签传播利用少量人工标注的“展示”图像(抓取后拍摄),为大规模杂乱抓取数据分配语义标签。
- 腹侧流通过人工标注的展示图像与同一机器人收集数据中传播的标签联合训练。
- 使用来自非语义抓取数据集(S1)和通用图像分类数据集(S2)的辅助数据以提升泛化能力。
- 模型端到端训练,双流联合优化,可适配注意力机制架构以进一步提升性能。
实验结果
研究问题
- RQ1双流深度学习架构能否有效在单一端到端策略中结合空间抓取规划与语义物体识别?
- RQ2如何利用自监督机器人数据收集来减少语义抓取对人工标注数据的依赖?
- RQ3整合辅助的非语义抓取数据在多大程度上能提升语义抓取任务的性能?
- RQ4从不包含抓取动作的语义标注图像中进行迁移是否能提升泛化能力?领域偏移对此有何影响?
- RQ5利用抓取后物体的展示图像进行半监督标签传播,能否有效扩展至大规模机器人数据集的语义标注?
主要发现
- 双流模型优于标准检测基线和单流模型,在使用辅助抓取数据时,对未见物体的分类成功率提升3.0%。
- 整合辅助非语义抓取数据(S1)使分类/尝试准确率相比分离的双流基线提升3.0%。
- 使用包含测试物体展示视图的辅助语义标注图像(S2)可提升训练集和未见测试集物体的抓取准确率。
- 当辅助数据与目标领域高度一致时,模型受益于领域迁移;但当领域偏移较大(如ImageNet或JFT)时,性能增益减弱。
- 注意力机制变体进一步提升性能,结合辅助抓取数据后,在训练物体上提升2.2%,在未见物体上提升3.3%。
- 通过展示图像的标签传播可有效实现对杂乱抓取场景的语义标注,证明了在机器人领域大规模自监督语义标注的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。