Skip to main content
QUICK REVIEW

[论文解读] Big Neural Networks Waste Capacity

Yann Dauphin, Yoshua Bengio|arXiv (Cornell University)|Jan 16, 2013
Neural Networks and Applications参考文献 11被引用 49
一句话总结

本文表明,使用一阶梯度下降的大型前馈神经网络无法有效利用增加的容量,因为每增加一个隐藏单元所带来的训练误差减少迅速衰减——甚至比简单的基线模板匹配器还差。作者将此归因于黑塞矩阵病态导致的优化失败,建议需要采用改进的优化方法(例如二阶或自然梯度)才能在 ImageNet 等大规模数据集上释放性能提升。

ABSTRACT

This article exposes the failure of some big neural networks to leverage added capacity to reduce underfitting. Past research suggest diminishing returns when increasing the size of neural networks. Our experiments on ImageNet LSVRC-2010 show that this may be due to the fact there are highly diminishing returns for capacity in terms of training error, leading to underfitting. This suggests that the optimization method - first order gradient descent - fails at this regime. Directly attacking this problem, either through the optimization method or the choices of parametrization, may allow to improve the generalization error on large datasets, for which a large capacity is required.

研究动机与目标

  • 研究在 ImageNet 等大规模数据集上,增加神经网络容量是否能提升训练误差的减少效果。
  • 确定无法有效利用新增容量的原因是否源于优化限制而非过拟合。
  • 评估一阶梯度下降是否因黑塞矩阵的病态性而无法有效利用大容量神经网络。
  • 探索替代优化方法或架构选择(例如稀疏性、正交性)是否能改善容量利用率。

提出的方法

  • 在 ImageNet LSVRC-2010 数据集上进行实验,使用隐藏单元数量可变(1000 至 15,000)的一层多层感知机(MLP)。
  • 使用带有学习率衰减和学习率网格搜索(0.1、0.01)的随机梯度下降来最小化训练误差。
  • 通过每增加一个隐藏单元所减少的训练误差数量来衡量容量增加的投入产出比(ROI)。
  • 建立基线:使用模板匹配器,每增加一个单元可匹配并消除至少一个训练误差,用于与 MLP 性能对比。
  • 假设黑塞矩阵的病态性是优化失败的原因,尤其在更大网络中隐藏单元之间的交互增强所致。
  • 实验使用 Theano 在 GPU 集群上运行,采用 HDF5 实现高效数据加载,训练最多运行 300 个周期。

实验结果

研究问题

  • RQ1在大规模数据集上,增加神经网络的隐藏单元数量是否能带来训练误差的成比例减少?
  • RQ2为何大型神经网络在参数更多的情况下仍无法有效利用新增容量?
  • RQ3这种失败是由于优化问题(如黑塞矩阵病态性)还是局部极小值增多所致?
  • RQ4当网络容量较高时,一阶优化方法(如 SGD)是否仍能有效训练非常深或非常宽的网络?
  • RQ5更简单的模型(如 K-Means)是否在容量利用率上优于深度网络?如果是,原因是什么?

主要发现

  • 在一阶 Sigmoid 多层感知机中,当隐藏单元数从 1000 增加到 2000 时,容量增加的投入产出比(ROI)下降了一个数量级。
  • 当隐藏单元数超过 5000 后,MLP 无法超越仅每增加一个单元可消除至少一个错误的简单模板匹配器基线。
  • 隐藏单元数超过 5000 的网络,其训练误差曲线收敛至相同点,表明回报递减且性能趋于平台期。
  • 训练误差曲线的导数(即 ROI)迅速下降,表明新增容量越来越难以被有效利用。
  • 优化失败被归因于黑塞矩阵的病态性,可能源于更大网络中隐藏单元之间交互的增强。
  • 结果表明,一阶梯度下降在高容量区域下表现无效,提示需要采用更优的优化方法,如二阶或自然梯度方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。