[论文解读] Recurrent Convolutional Neural Networks for Scene Parsing
本文提出一种用于场景解析的循环卷积神经网络(rCNN),通过使用共享的堆叠网络实例迭代优化像素级预测,建模长距离空间依赖关系。该方法以前馈方式处理原始RGB图像,并利用循环机制纠正错误,在斯坦福背景(Stanford Background)和SIFT Flow数据集上实现了最先进(SOTA)的准确率,且推理成本极低,优于基于分割或条件随机场(CRF)的方法,且无需特定任务特征。
Scene parsing is a technique that consist on giving a label to all pixels in an image according to the class they belong to. To ensure a good visual coherence and a high class accuracy, it is essential for a scene parser to capture image long range dependencies. In a feed-forward architecture, this can be simply achieved by considering a sufficiently large input context patch, around each pixel to be labeled. We propose an approach consisting of a recurrent convolutional neural network which allows us to consider a large input context, while limiting the capacity of the model. Contrary to most standard approaches, our method does not rely on any segmentation methods, nor any task-specific features. The system is trained in an end-to-end manner over raw pixels, and models complex spatial dependencies with low inference cost. As the context size increases with the built-in recurrence, the system identifies and corrects its own errors. Our approach yields state-of-the-art performance on both the Stanford Background Dataset and the SIFT Flow Dataset, while remaining very fast at test time.
研究动机与目标
- 将场景解析视为一个像素级分类任务,以提升视觉一致性和准确性。
- 消除对昂贵图模型(如CRF)或图像分割进行上下文推理的依赖。
- 实现在原始像素上端到端的训练,无需手工设计特征或后处理。
- 通过前馈、循环架构在保持低推理时间的同时实现高准确率。
提出的方法
- 该方法采用循环架构,多个共享权重的卷积网络实例按顺序处理同一图像块。
- 每个网络实例的输入为原始图像和前一实例的预测分割结果,通过循环机制实现错误纠正。
- 网络由多个卷积层组成,激活函数为tanh,随后是最大池化层,最后通过1×1卷积层生成类别得分。
- 循环机制使模型能够逐步优化预测,有效扩大感受野,而无需在每一步增加模型容量。
- 训练采用随机梯度下降,并结合混合策略:先同时训练两个实例,随后再添加第三个实例以纠正先前预测。
- 系统在原始像素上进行端到端训练,避免使用任何手工设计的特征或分割流水线。
实验结果
研究问题
- RQ1能否在不依赖图模型或图像分割的前提下,通过循环CNN架构建模场景解析中的长距离空间依赖?
- RQ2在共享权重的CNN中引入循环机制,如何提升像素级分类的准确率和视觉一致性?
- RQ3该系统能否在保持快速推理速度的同时实现最先进性能?
- RQ4在原始像素上进行端到端训练,在多大程度上优于使用手工特征或CRF后处理的方法?
- RQ5循环步数的多少在多大程度上影响性能和推理时间?
主要发现
- rCNN模型在斯坦福背景数据集上实现了80.2%的像素准确率,超越了以往最先进方法。
- 在包含33个类别的SIFT Flow数据集上,该模型在未使用分割或CRF后处理的情况下实现了最先进性能。
- 仅使用1/4图像像素进行标注(1/4分辨率)时,模型达到79.3%的准确率,接近全分辨率性能。
- 推理时间显著降低——在1/4分辨率下每张图像仅需0.70秒,尽管上下文信息增加,仍表现出高效性。
- 循环设计使网络能够自我纠正错误,视觉结果表明经过多轮迭代后预测质量明显提升。
- 该方法优于依赖超像素、CRF或手工特征(如SIFT、Gist)的系统,如表1和表5所示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。