Skip to main content
QUICK REVIEW

[论文解读] Forward Thinking: Building and Training Neural Networks One Layer at a Time

Chris Hettinger, Tanner Christensen|arXiv (Cornell University)|Jun 8, 2017
Generative Adversarial Networks and Image Synthesis参考文献 11被引用 30
一句话总结

本文提出了一种名为'前向思维'的新框架,通过按顺序逐层训练深度神经网络,将输入数据向前映射到每一层训练后的输出,从而为后续层生成新的、经过变换的数据,实现无需反向传播的训练。该方法在MNIST数据集上使用卷积神经网络取得了99.72%的准确率,达到当前最优水平,同时相比反向传播显著缩短了训练时间,证明了贪婪的、逐层训练方法可作为独立方法实现高效且高度有效的训练。

ABSTRACT

We present a general framework for training deep neural networks without backpropagation. This substantially decreases training time and also allows for construction of deep networks with many sorts of learners, including networks whose layers are defined by functions that are not easily differentiated, like decision trees. The main idea is that layers can be trained one at a time, and once they are trained, the input data are mapped forward through the layer to create a new learning problem. The process is repeated, transforming the data through multiple layers, one at a time, rendering a new data set, which is expected to be better behaved, and on which a final output layer can achieve good performance. We call this forward thinking and demonstrate a proof of concept by achieving state-of-the-art accuracy on the MNIST dataset for convolutional neural networks. We also provide a general mathematical formulation of forward thinking that allows for other types of deep learning problems to be considered.

研究动机与目标

  • 开发一种可扩展的、无需反向传播的深度神经网络训练框架。
  • 使非可微分学习器(例如决策树、随机森林)能够在深度网络架构中使用。
  • 通过消除多层间梯度计算的需求,减少训练时间。
  • 证明贪婪的、顺序的逐层训练方法可实现与传统反向传播相当或更优的性能。
  • 提供一种适用于各种深度学习问题(包括标准神经网络之外)的一般性数学公式。

提出的方法

  • 使用标准优化方法单独训练每一层,基于原始或变换后的输入数据,无需对前序层进行梯度计算。
  • 在训练完某一层后,将所有训练输入向前映射到该层,生成下一层使用的新型特征空间。
  • 迭代重复该过程:在变换后的数据上训练新一层,然后再次向前映射,形成一系列逐步优化的表示。
  • 使用最终变换后的数据训练输出层,使其在原始任务上达到高性能。
  • 通过避免反向传播,允许在每一层中使用多种类型的学习器,包括非可微分模型(如决策树)。
  • 采用全连接和卷积神经网络架构实现该框架,并对超参数进行调优以获得最佳性能。

实验结果

研究问题

  • RQ1能否通过逐层单独训练的方式,有效实现无需反向传播的深度神经网络训练?
  • RQ2该前向思维方法能否实现与传统反向传播相当或更优的性能?
  • RQ3当在隐藏层中使用非可微分学习器(如决策树)时,该方法是否依然有效?
  • RQ4在实际应用中,前向思维的训练速度与标准反向传播相比如何?
  • RQ5该框架能否推广到各种深度学习架构(包括卷积网络)?

主要发现

  • 使用卷积神经网络的前向思维方法在MNIST数据集上达到了99.72%的测试准确率,发表时位列第五名最佳结果。
  • 使用前向思维训练的全连接深度神经网络在MNIST上达到了98.89%的准确率,与传统训练网络的性能相当。
  • 前向思维训练显著快于反向传播:在相同硬件上,每轮训练仅需24秒,而反向传播需53秒。
  • 前向思维网络比反向传播训练的网络更快达到更高的测试准确率,且训练和测试准确率均稳定在更优水平。
  • 该方法对过拟合表现出强鲁棒性,且无需重新训练已训练过的层,这与预训练方法不同。
  • 该框架具有通用性,可应用于非可微分学习器,如在关于深度随机森林的配套论文中所展示。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。