QUICK REVIEW

[论文解读] Recurrent Convolutional Neural Networks for Scene Parsing

Pedro H. O. Pinheiro, Ronan Collobert|arXiv (Cornell University)|Jun 12, 2013

Advanced Image and Video Retrieval Techniques参考文献 11被引用 74

一句话总结

本文提出一种用于场景解析的循环卷积神经网络（rCNN），通过使用共享的堆叠网络实例迭代优化像素级预测，建模长距离空间依赖关系。该方法以前馈方式处理原始RGB图像，并利用循环机制纠正错误，在斯坦福背景（Stanford Background）和SIFT Flow数据集上实现了最先进（SOTA）的准确率，且推理成本极低，优于基于分割或条件随机场（CRF）的方法，且无需特定任务特征。

ABSTRACT

Scene parsing is a technique that consist on giving a label to all pixels in an image according to the class they belong to. To ensure a good visual coherence and a high class accuracy, it is essential for a scene parser to capture image long range dependencies. In a feed-forward architecture, this can be simply achieved by considering a sufficiently large input context patch, around each pixel to be labeled. We propose an approach consisting of a recurrent convolutional neural network which allows us to consider a large input context, while limiting the capacity of the model. Contrary to most standard approaches, our method does not rely on any segmentation methods, nor any task-specific features. The system is trained in an end-to-end manner over raw pixels, and models complex spatial dependencies with low inference cost. As the context size increases with the built-in recurrence, the system identifies and corrects its own errors. Our approach yields state-of-the-art performance on both the Stanford Background Dataset and the SIFT Flow Dataset, while remaining very fast at test time.

研究动机与目标

将场景解析视为一个像素级分类任务，以提升视觉一致性和准确性。
消除对昂贵图模型（如CRF）或图像分割进行上下文推理的依赖。
实现在原始像素上端到端的训练，无需手工设计特征或后处理。
通过前馈、循环架构在保持低推理时间的同时实现高准确率。

提出的方法

该方法采用循环架构，多个共享权重的卷积网络实例按顺序处理同一图像块。
每个网络实例的输入为原始图像和前一实例的预测分割结果，通过循环机制实现错误纠正。
网络由多个卷积层组成，激活函数为tanh，随后是最大池化层，最后通过1×1卷积层生成类别得分。
循环机制使模型能够逐步优化预测，有效扩大感受野，而无需在每一步增加模型容量。
训练采用随机梯度下降，并结合混合策略：先同时训练两个实例，随后再添加第三个实例以纠正先前预测。
系统在原始像素上进行端到端训练，避免使用任何手工设计的特征或分割流水线。

实验结果

研究问题

RQ1能否在不依赖图模型或图像分割的前提下，通过循环CNN架构建模场景解析中的长距离空间依赖？
RQ2在共享权重的CNN中引入循环机制，如何提升像素级分类的准确率和视觉一致性？
RQ3该系统能否在保持快速推理速度的同时实现最先进性能？
RQ4在原始像素上进行端到端训练，在多大程度上优于使用手工特征或CRF后处理的方法？
RQ5循环步数的多少在多大程度上影响性能和推理时间？

主要发现

rCNN模型在斯坦福背景数据集上实现了80.2%的像素准确率，超越了以往最先进方法。
在包含33个类别的SIFT Flow数据集上，该模型在未使用分割或CRF后处理的情况下实现了最先进性能。
仅使用1/4图像像素进行标注（1/4分辨率）时，模型达到79.3%的准确率，接近全分辨率性能。
推理时间显著降低——在1/4分辨率下每张图像仅需0.70秒，尽管上下文信息增加，仍表现出高效性。
循环设计使网络能够自我纠正错误，视觉结果表明经过多轮迭代后预测质量明显提升。
该方法优于依赖超像素、CRF或手工特征（如SIFT、Gist）的系统，如表1和表5所示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。