[论文解读] Parsimonious Deep Learning: A Differential Inclusion Approach with Global Convergence.
本文提出一种简洁的深度学习框架,利用逆尺度空间的微分包含来系统地从简单到复杂模型逐步增加神经网络的复杂度。该方法采用具有全局收敛性保证的分裂线性Bregman迭代,实现高效、可解释的模型探索,且无需过度参数化,在MNIST、CIFAR-10/100和ImageNet上表现出色。
Over-parameterization is ubiquitous nowadays in training neural networks to benefit both optimization in seeking global optima and generalization in reducing prediction error. However, compressive networks are desired in many real world applications and direct training of small networks may be trapped in local optima. In this paper, instead of pruning or distilling an over-parameterized model to compressive ones, we propose a parsimonious learning approach based on differential inclusions of inverse scale spaces, that generates a family of models from simple to complex ones with a better efficiency and interpretability than stochastic gradient descent in exploring the model space. It enjoys a simple discretization, the Split Linearized Bregman Iterations, with provable global convergence that from any initializations, algorithmic iterations converge to a critical point of empirical risks. One may exploit the proposed method to boost the complexity of neural networks progressively. Numerical experiments with MNIST, Cifar-10/100, and ImageNet are conducted to show the method is promising in training large scale models with a favorite interpretability.
研究动机与目标
- 解决训练小型、紧凑型神经网络时因优化过程易陷入局部最优的挑战。
- 克服传统剪枝和蒸馏方法在模型压缩中效率低下且缺乏可解释性的缺陷。
- 开发一种系统化方法,以受控的、全局收敛的方式从简单到复杂架构逐步探索模型复杂度。
- 实现在不依赖过度参数化初始化的前提下,高效且可解释地训练大规模模型。
提出的方法
- 将学习过程建模为基于逆尺度空间的微分包含,以描述模型复杂度的渐进增长。
- 采用分裂线性Bregman迭代对微分包含进行稳定且高效的数值离散化。
- 确保从任意初始化均能全局收敛至经验风险的临界点,从而保证优化的鲁棒性。
- 引入正则化路径以控制模型复杂度,实现从简单到复杂架构的渐进式增长。
- 将该方法集成至标准深度学习流水线,支持端到端训练并保持可解释性。
- 利用逆尺度空间的结构特性,在模型增长过程中保持稳定性和收敛性。
实验结果
研究问题
- RQ1微分包含框架是否能在无需过度参数化的情况下实现小型神经网络训练的全局收敛?
- RQ2与随机梯度下降相比,该方法在探索模型复杂度和实现泛化能力方面表现如何?
- RQ3该方法在保持可解释性和收敛性的同时,能在多大程度上系统性地提升模型复杂度?
- RQ4该方法是否能在不进行模型剪枝或蒸馏的情况下,在ImageNet等标准基准上实现具有竞争力的性能?
主要发现
- 所提方法可从任意初始化实现对经验风险临界点的全局收敛,确保优化的鲁棒性。
- 分裂线性Bregman迭代方案实现了对微分包含框架的简单且稳定的离散化。
- 在MNIST、CIFAR-10/100和ImageNet上的数值实验表明,该方法在训练大规模模型时具有高效且高度可解释的性能。
- 该方法实现了渐进式的模型复杂度增长,在模型空间探索中相比标准SGD展现出更好的可解释性和效率。
- 该方法避免了对过度参数化模型或后处理压缩技术(如剪枝和蒸馏)的依赖。
- 该框架在多样化数据集上表现出强劲的实证性能,显示出良好的可扩展性和鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。