Skip to main content
QUICK REVIEW

[论文解读] Handwritten Digit Recognition with a Committee of Deep Neural Nets on GPUs

Dan Cireşan, Ueli Meier|arXiv (Cornell University)|Mar 23, 2011
Advanced Neural Network Applications参考文献 10被引用 26
一句话总结

该论文提出了一种由多个深度多层感知机(MLP)组成的委员会,这些MLP在经过不同预处理和增强的MNIST图像上进行训练,以实现当时最先进的手写数字识别性能。通过归一化数字的宽高比并利用GPU加速的在线数据增强技术进行形变处理,该委员会将错误率降低至0.31%,为当时MNIST数据集报告的最低错误率,优于单个网络和复杂架构。

ABSTRACT

The competitive MNIST handwritten digit recognition benchmark has a long history of broken records since 1998. The most recent substantial improvement by others dates back 7 years (error rate 0.4%) . Recently we were able to significantly improve this result, using graphics cards to greatly speed up training of simple but deep MLPs, which achieved 0.35%, outperforming all the previous more complex methods. Here we report another substantial improvement: 0.31% obtained using a committee of MLPs.

研究动机与目标

  • 在MNIST基准上实现超越现有最先进结果的手写数字识别准确率。
  • 探究将多个在不同预处理数据上训练的深度MLP组合起来,是否能通过误差多样性降低泛化误差。
  • 利用GPU加速高效训练深度、大规模MLP,并结合在线数据增强以防止过拟合。
  • 探索输入归一化(如宽度缩放)和形变技术对深度神经网络泛化性能的影响。

提出的方法

  • 在GPU加速的数据上,使用随机梯度下降和反向传播训练深度MLP(841-2500-2000-1500-1000-500-10个神经元)。
  • 通过仿射变换(旋转、缩放、错切)和弹性形变(参数σ, α, β, γ)进行在线数据增强,生成多样化的训练样本。
  • 将数字的边界框宽度归一化为10、12、14、16、18、20像素(数字1和7除外),以捕捉宽高比的变化。
  • 使用由七个相同MLP组成的委员会,每个MLP在训练数据的不同预处理版本上进行训练,最终分类结果通过平均预测值确定。
  • 将计算最密集的部分(尤其是弹性形变的高斯卷积)在GPU上优化,以加速训练过程。
  • 在验证误差最低的每名委员会成员中选择最佳性能模型后,于标准MNIST测试集上评估模型性能。

实验结果

研究问题

  • RQ1在不同预处理的MNIST数据上训练的多个相同深度MLP组成的委员会,是否能实现低于单个网络的错误率?
  • RQ2通过在线形变进行数据增强,是否能显著提升深度MLP的泛化能力,而无需引入架构复杂性?
  • RQ3输入归一化(如宽度缩放)在在多大程度上通过捕捉书写风格差异降低错误率?
  • RQ4GPU加速是否能够实现大规模在线数据增强下非常深、大规模MLP的训练,从而提升MNIST上的性能?

主要发现

  • 由七个深度MLP组成的委员会在测试集上实现了0.31%的错误率,为当时MNIST基准报告的最低错误率。
  • 委员会中单个网络的错误率在0.35%至0.52%之间,表现最佳的单个网络错误率为0.32%。
  • 委员会的性能显著优于任一单个网络,证明了通过预处理差异实现误差多样性的有效性。
  • 委员会错分的31个数字大多具有歧义性或书写质量差,且在第二次预测中,有29个被正确分类。
  • GPU加速使反向传播速度提升了50倍,数据形变速度提升了10倍,使大规模在线增强成为可能。
  • 该方法在不使用复杂架构(如无监督预训练、专用层或多样化分类器集成)的情况下,仍优于现有复杂架构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。