Skip to main content
QUICK REVIEW

[论文解读] Progressive Learning for Systematic Design of Large Neural Networks

Saikat Chatterjee, Alireza M. Javid|arXiv (Cornell University)|Oct 23, 2017
Machine Learning and ELM参考文献 27被引用 24
一句话总结

本文提出渐进式学习网络(PLN),一种通过使用基于范数正则化的凸优化,逐层逐节点地增量增加网络深度与宽度的系统化方法,用于设计大型深度神经网络。该方法减少了人工超参数调优,利用随机权重矩阵,并实现了优异的泛化性能——例如,通过调优将MNIST准确率从95.7%提升至98.0%,同时保持训练误差不增加,并在每添加一层新层时表现出性能跃升。

ABSTRACT

We develop an algorithm for systematic design of a large artificial neural network using a progression property. We find that some non-linear functions, such as the rectifier linear unit and its derivatives, hold the property. The systematic design addresses the choice of network size and regularization of parameters. The number of nodes and layers in network increases in progression with the objective of consistently reducing an appropriate cost. Each layer is optimized at a time, where appropriate parameters are learned using convex optimization. Regularization parameters for convex optimization do not need a significant manual effort for tuning. We also use random instances for some weight matrices, and that helps to reduce the number of parameters we learn. The developed network is expected to show good generalization power due to appropriate regularization and use of random weights in the layers. This expectation is verified by extensive experiments for classification and regression problems, using standard databases.

研究动机与目标

  • 解决在大型神经网络中缺乏系统化设计原则来选择网络深度与宽度的问题。
  • 减少训练深层网络时的人工超参数调优与正则化工作量。
  • 开发一种方法,确保在训练性能上持续提升的同时促进良好泛化。
  • 探究渐进式添加层与节点是否能导致近似误差减小并提升测试性能。
  • 探讨随机权重矩阵与凸优化在减少可训练参数数量并提升泛化性能中的作用。

提出的方法

  • 通过逐层添加的方式逐步构建网络,每一层均通过使用最小二乘法和基于范数正则化的凸优化进行优化。
  • 使用ReLU等非线性激活函数,其通过支持渐进式学习特性,实现稳定且渐进的性能提升。
  • 在每层中对部分节点使用随机权重矩阵(n_i - 2Q个节点),从而减少需学习的参数数量。
  • 通过直觉和先前实验经验,以极少的人工干预调优正则化参数(λ_ls, μ)。
  • 训练过程为贪婪策略:在前序层固定后,逐层独立优化,确保子问题为凸优化问题。
  • 网络架构在训练过程中自适应演化,层大小与深度根据训练过程中的性能提升动态选择。

实验结果

研究问题

  • RQ1是否可以通过一种系统化、渐进式的深度神经网络增长方法,在无需人工调优的情况下持续降低训练成本?
  • RQ2在部分连接层中使用随机权重矩阵是否能减少可训练参数数量,同时保持或提升泛化性能?
  • RQ3添加新层是否会导致可测量的、突然的性能提升,表明其具备更丰富的特征表示能力?
  • RQ4基于范数正则化的凸优化是否能确保在渐进式网络增长过程中训练误差不增加且收敛稳定?
  • RQ5渐进式网络在标准基准测试上的泛化性能与标准深层网络相比如何?

主要发现

  • 经过调优后,渐进式学习网络(PLN)在MNIST数据集上达到98.0%的准确率,相比默认参数下的95.7%,表现出显著的性能提升,且调优工作量极小。
  • 在Letter数据集上,PLN的准确率从95.7%提升至97.1%,表明在多个数据集上均保持一致的性能增益。
  • 在训练集与测试集上的性能均随着层与节点的增加而持续提升,且在每添加一层时出现明显跃升,表明特征表示能力得到增强。
  • 随着网络规模增大,训练误差与测试误差之间的差距扩大,证实可训练参数数量增加时泛化能力下降。
  • 网络在训练过程中实现自组织,部分层比其他层增长得更大,表明其能根据数据复杂度自适应选择深度与宽度。
  • 该方法显著降低了对人工超参数调优的依赖,正则化与优化参数通过经验直觉以极小干预方式设定。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。