Skip to main content
QUICK REVIEW

[论文解读] End-to-End Instance Segmentation and Counting with Recurrent Attention.

Mengye Ren, Richard S. Zemel|arXiv (Cornell University)|May 30, 2016
Advanced Neural Network Applications参考文献 43被引用 55
一句话总结

该论文提出了一种端到端的循环神经网络,结合注意力机制,模仿人类计数过程,实现联合实例分割与目标计数。通过按顺序生成感兴趣区域,并在每个区域中分割出主导目标,该模型在CVPPP和KITTI数据集上取得了最先进性能。

ABSTRACT

While convolutional neural networks have gained impressive success recently in solving structured prediction problems such as semantic segmentation, it remains a challenge to differentiate individual object instances in the scene. Instance segmentation is very important in a variety of applications, such as autonomous driving, image captioning, and visual question answering. Techniques that combine large graphical models with low-level vision have been proposed to address this problem; however, we propose an end-to-end recurrent neural network (RNN) architecture with an attention mechanism to model a human-like counting process, and produce detailed instance segmentations. The network is jointly trained to sequentially produce regions of interest as well as a dominant object segmentation within each region. The proposed model achieves state-of-the-art results on the CVPPP leaf segmentation dataset and KITTI vehicle segmentation dataset.

研究动机与目标

  • 为解决场景中区分个体目标实例的挑战,这对自动驾驶和视觉问答等应用至关重要。
  • 开发一种模拟人类计数过程的实例分割方法。
  • 在端到端可训练架构中,联合预测感兴趣区域和主导对象的密集分割。
  • 提升基准数据集(如CVPPP和KITTI)上的实例分割性能。

提出的方法

  • 该模型采用循环神经网络(RNN)按顺序生成图像中的感兴趣区域。
  • 使用注意力机制在生成每个感兴趣区域时聚焦于相关图像特征。
  • 在每个区域中,网络生成主导对象的密集分割掩码。
  • 该架构联合训练,以端到端方式优化实例分割和计数目标。
  • 通过逐个处理物体,网络学习模仿人类计数过程,从而改善定位与分离效果。

实验结果

研究问题

  • RQ1循环注意力机制能否有效建模人类计数过程以实现实例分割?
  • RQ2与现有方法相比,端到端RNN结合注意力机制在联合实例分割与计数任务上的表现如何?
  • RQ3感兴趣区域的顺序生成是否能提升实例分离与分割精度?
  • RQ4该模型能否在CVPPP和KITTI等多样化数据集上实现良好泛化?

主要发现

  • 所提模型在CVPPP叶片分割数据集上达到最先进性能。
  • 在KITTI车辆分割数据集上也取得了最先进结果。
  • 联合学习感兴趣区域与分割结果,显著提升了实例分离与精度。
  • 采用循环注意力机制,使推理过程中呈现出更结构化、更接近人类的计数过程。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。