[论文解读] Weakly-supervised DCNN for RGB-D Object Recognition in Real-World Applications Which Lack Large-scale Annotated Training Data
本文提出一个弱监督的 RGB-D 物体识别框架(DCNN-GPC),通过使用少量有标签数据与大规模的无标签 RGB-D 数据,利用高斯过程分类来传播标签,实现端到端训练的多模态 DCNN,无需边界框注释。它还引入了从合成 CAD 生成的深度图进行深度预训练,以及一个对边界感知的3D物体性检测器用于实时检测。
This paper addresses the problem of RGBD object recognition in real-world applications, where large amounts of annotated training data are typically unavailable. To overcome this problem, we propose a novel, weakly-supervised learning architecture (DCNN-GPC) which combines parametric models (a pair of Deep Convolutional Neural Networks (DCNN) for RGB and D modalities) with non-parametric models (Gaussian Process Classification). Our system is initially trained using a small amount of labeled data, and then automatically prop- agates labels to large-scale unlabeled data. We first run 3D- based objectness detection on RGBD videos to acquire many unlabeled object proposals, and then employ DCNN-GPC to label them. As a result, our multi-modal DCNN can be trained end-to-end using only a small amount of human annotation. Finally, our 3D-based objectness detection and multi-modal DCNN are integrated into a real-time detection and recognition pipeline. In our approach, bounding-box annotations are not required and boundary-aware detection is achieved. We also propose a novel way to pretrain a DCNN for the depth modality, by training on virtual depth images projected from CAD models. We pretrain our multi-modal DCNN on public 3D datasets, achieving performance comparable to state-of-the-art methods on Washington RGBS Dataset. We then finetune the network by further training on a small amount of annotated data from our novel dataset of industrial objects (nuclear waste simulants). Our weakly supervised approach has demonstrated to be highly effective in solving a novel RGBD object recognition application which lacks of human annotations.
研究动机与目标
- 在标注数据稀少的现实场景中推动 RGB-D 物体识别。
- 开发一个将 RGB 和深度的 DCNN 与高斯过程分类相结合的弱监督学习架构。
- 实现使用少量有标签数据和大量无标签候选 region 的端到端多模态 DCNN 训练。
- 在由 CAD 模型生成的合成深度图上对深度网络进行预训练,以利用三维信息。
- 在工业 RGB-D 数据上展示边界感知的实时检测,并与全监督基线进行比较。
提出的方法
- 使用一个三组件架构:RGB-Net、Depth-Net,以及一个非参数高斯过程分类器(GPC)。
- 在 ImageNet 上预训练 RGB-Net,在 Model-Net 上通过从 CAD 模型生成的合成深度图对 Depth-Net 进行预训练。
- 利用具有多模态核的 DCNN-GPC 将来自少量人工标注的对象性提案集合的标签传播到大量无标签集合。
- 用包含 GP 标注数据的 softmax 损失来训练端到端的多模态 DCNN(弱监督)。
- 采用实时的3D对象性检测器来生成无边界框的边界感知 RGB-D 提案。
- 通过在 GPC 中的核的乘积融合 RGB 和深度特征,并通过超参数调优来优化基于 EP 的后验。
实验结果
研究问题
- RQ1在仅有极少量标注数据的情况下,弱监督的 RGB-D 物体识别系统是否能达到与全监督方法相当的性能?
- RQ2是否利用合成深度预训练来提升深度网络对真实世界 RGB-D 数据的迁移,而无需颜色映射?
- RQ3基于3D的对象性检测器是否能提供适用于端到端 DCNN-GPC 训练的边界感知提案?
- RQ4使用 GP 标注数据训练的多模态 DCNN 在实际工业 RGB-D 识别任务中的表现如何?
- RQ5将 GP 标签传播与 DCNN 微调结合时,端到端训练的收益有哪些?
主要发现
- 通过从合成 CAD 深度映射预训练的 Depth-Net,可以在未经颜色映射输入的原始深度数据上实现有效的端到端学习。
- 在 Washington RGB-D 数据集上,所提出的多模态 DCNN 在51个类别上达到 91.8% 的识别准确率,优于大多数基于 DCNN 的方法。
- 在 Model-Net 上进行深度预训练在3D-深度相关任务中获得竞争性结果,并促进对 Kinect 派生的 RGB-D 数据的迁移。
- 在工业 RGB-D 数据中,该系统达到 80.85% 的实例级精度、83.53% 的召回率和 82.17% 的 F1。与此同时像素级为 75.52% 精度、70.39% 召回和 72.87% F1。
- 该流程在约 2-3 Hz 的接近实时运行(下采样和较轻的网络可提升至约 5 Hz),明显快于此前基于边界框的方法。
- 与全监督的 R-CNN 基线相比,弱监督方法因 GP 驱动的自动标注而对尺度和姿态变化具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。