Skip to main content
QUICK REVIEW

[论文解读] Decoupled Greedy Learning of CNNs

Eugene Belilovsky, Michael Eickenberg|arXiv (Cornell University)|Jan 23, 2019
Advanced Neural Network Applications参考文献 36被引用 31
一句话总结

该论文提出解耦贪婪学习(DGL),一种通过松弛目标函数独立训练CNN层的方法,利用解耦优化和回放缓冲区实现完整更新与前向计算的解耦,从而在CIFAR-10和ImageNet上实现最先进性能,具备出色的可扩展性与对训练延迟的鲁棒性,优于反向传播和DNI等方法,在并行训练设置中表现更优。

ABSTRACT

A commonly cited inefficiency of neural network training by back-propagation is the update locking problem: each layer must wait for the signal to propagate through the full network before updating. Several alternatives that can alleviate this issue have been proposed. In this context, we consider a simpler, but more effective, substitute that uses minimal feedback, which we call Decoupled Greedy Learning (DGL). It is based on a greedy relaxation of the joint training objective, recently shown to be effective in the context of Convolutional Neural Networks (CNNs) on large-scale image classification. We consider an optimization of this objective that permits us to decouple the layer training, allowing for layers or modules in networks to be trained with a potentially linear parallelization in layers. With the use of a replay buffer we show this approach can be extended to asynchronous settings, where modules can operate with possibly large communication delays. We show theoretically and empirically that this approach converges. Then, we empirically find that it can lead to better generalization than sequential greedy optimization. We demonstrate the effectiveness of DGL against alternative approaches on the CIFAR-10 dataset and on the large-scale ImageNet dataset.

研究动机与目标

  • 为解决深度CNN中反向传播的低效问题,特别是更新锁定和前向锁定问题,这些限制了并行化能力。
  • 开发一种比基于梯度的方法(如DNI)更简单、更有效的替代方案,避免复杂的辅助网络和反馈依赖。
  • 通过解耦各层间的优化过程,实现层训练的真正并行化。
  • 通过使用回放缓冲区,将该方法扩展到存在显著通信延迟的异步设置中。
  • 证明解耦贪婪学习在ImageNet等大规模数据集上可达到或超过标准反向传播的性能。

提出的方法

  • 提出联合训练目标的贪婪松弛,使每一层可独立训练,无需等待后续层的反馈。
  • 引入解耦优化过程,通过消除训练期间对上层模块的依赖,实现更新解耦。
  • 使用回放缓冲区存储过去的激活值和标签,支持存在大通信延迟的异步训练。
  • 采用两阶段优化:首先,使用自身输出和目标在局部目标上训练每一层;其次,利用回放缓冲区中计算的代理梯度更新参数。
  • 在同步和异步设置中应用该方法,在弱假设下提供理论收敛保证。
  • 将该方法扩展至模型并行设置,并自然地与数据并行结合,实现大规模模型的可扩展训练。

实验结果

研究问题

  • RQ1贪婪且解耦的优化策略是否能在CNN中实现与标准反向传播相当或更优的性能?
  • RQ2解耦层训练是否能消除更新锁定和前向锁定,实现真正的并行化?
  • RQ3回放缓冲区是否能支持在存在显著通信延迟下的鲁棒异步训练?
  • RQ4在准确率、可扩展性和超参数稳定性方面,DGL与DNI及其他替代方法相比表现如何?
  • RQ5DGL是否能扩展到ImageNet等大规模数据集,而此前的替代方法均未能成功?

主要发现

  • 在CIFAR-10上,DGL实现了最先进性能,准确率和训练稳定性均优于标准反向传播和DNI。
  • 在ImageNet数据集上,DGL展现出对更深、更大模型的可扩展性,尽管采用非反向传播方法,仍实现了具有竞争力的准确率。
  • 该方法对超参数选择和训练延迟具有鲁棒性,异步DGL在存在大通信延迟时仍能保持性能。
  • 理论分析表明,DGL以标准非凸优化速率收敛,为其实证成功提供了理论依据。
  • 回放缓冲区实现了前向解耦,使模块可异步运行,无需等待前驱模块,显著提升了训练吞吐量。
  • 在并行化效率和可扩展性方面,DGL优于现有替代方法,使其成为未来生物可解释性和分布式训练研究的强有力基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。