Skip to main content
QUICK REVIEW

[论文解读] Convolutional Neural Networks Applied to House Numbers Digit Classification

Pierre Sermanet, Soumith Chintala|arXiv (Cornell University)|Apr 18, 2012
Image Retrieval and Classification Techniques参考文献 7被引用 338
一句话总结

本文提出了一种增强的卷积神经网络(ConvNet)用于从SVHN数据集中分类房屋号码,采用Lp池化和多阶段特征以提升性能。其在准确率上达到94.85%的新SOTA结果,相比此前最佳结果90.6%提升了4.25个百分点。

ABSTRACT

We classify digits of real-world house numbers using convolutional neural networks (ConvNets). ConvNets are hierarchical feature learning neural networks whose structure is biologically inspired. Unlike many popular vision approaches that are hand-designed, ConvNets can automatically learn a unique set of features optimized for a given task. We augmented the traditional ConvNet architecture by learning multi-stage features and by using Lp pooling and establish a new state-of-the-art of 94.85% accuracy on the SVHN dataset (45.2% error improvement). Furthermore, we analyze the benefits of different pooling methods and multi-stage features in ConvNets. The source code and a tutorial are available at eblearn.sf.net.

研究动机与目标

  • 提升在包含复杂自然场景中真实房屋号码的SVHN数据集上的数字分类准确率。
  • 评估Lp池化作为传统最大池化或平均池化在ConvNets中替代方案的有效性。
  • 探究与单阶段特征相比,多阶段特征在该分类任务中是否能提升性能。
  • 证明通过学习特征进行完全监督训练的模型优于以往依赖无监督预训练或人工设计特征的方法。

提出的方法

  • 模型采用两阶段ConvNet架构,包含卷积层、Lp池化和减法归一化。
  • Lp池化通过如下公式实现:$ O = \left( \sum\sum I(i,j)^P \times G(i,j) \right)^{1/P} $,其中$ G $为高斯核。
  • 通过从每个阶段分支输出并拼接后送入分类器,提取多阶段特征。
  • 分类器为包含20个隐藏单元的两层非线性网络,通过随机梯度下降进行训练。
  • 数据预处理包括对YUV通道的Y分量进行局部对比度归一化,以及全局对比度归一化。
  • 学习率和正则化等超参数在由训练集和额外数据集中的6,000个样本组成的验证集上进行调优。

实验结果

研究问题

  • RQ1在SVHN数据集上,与标准的最大池化或平均池化相比,使用$ 1 < p < \infty $的Lp池化是否能提升分类准确率?
  • RQ2在涉及自然场景图像的数字分类任务中,多阶段特征在多大程度上能提升性能?
  • RQ3是否能够通过完全监督训练的ConvNet结合学习特征,超越以往依赖无监督预训练的SOTA方法?
  • RQ4在SVHN验证集上,不同池化值(如$ p=1,2,4,12,\infty $)的性能表现如何变化?

主要发现

  • 表现最佳的模型在测试集上达到94.85%的准确率,相比此前SOTA的90.6%提升了4.25个百分点。
  • L4池化表现最佳,在验证集上错误率为5.61%,优于最大池化($ p=\infty $)的7.57%错误率。
  • 在SVHN上,多阶段特征仅带来微小改进(错误率降低0.9%),而其他任务如交通标志或行人检测中则有更显著增益(最高达54%)。
  • 使用L2池化的多阶段特征达到94.33%准确率,L12池化在相同设置下达到94.76%,最终L4池化模型达到94.85%。
  • 该模型优于多个基线方法,包括HOG(85.0%)、堆叠稀疏自编码器(89.7%)和k-means(90.6%),即使仅使用监督训练。
  • 最高能量(最易错分类)的验证样本表现出显著的尺度变化,表明通过尺度变形进行数据增强可进一步提升模型鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。