[论文解读] Trainability and Data-dependent Initialization of Over-parameterized ReLU Neural Networks
本文引入了过参数化 ReLU 神经网络中的可训练性概念,定义为初始化时未永久死亡的神经元所占比例。提出了一种数据相关的初始化方法以提升可训练性,表明过参数化既是最小化训练损失的必要条件,也是充分条件,并通过实证验证了训练成功率的提升。
In this paper, we study the trainability of rectified linear unit (ReLU) networks. A ReLU neuron is said to be dead if it only outputs a constant for any input. Two death states of neurons are introduced; tentative and permanent death. A network is then said to be trainable if the number of permanently dead neurons is sufficiently small for a learning task. We refer to the probability of a network being trainable as trainability. We show that a network being trainable is a necessary condition for successful training and the trainability serves as an upper bound of successful training rates. In order to quantify the trainability, we study the probability distribution of the number of active neurons at the initialization. In many applications, over-specified or over-parameterized neural networks are successfully employed and shown to be trained effectively. With the notion of trainability, we show that over-parameterization is both a necessary and a sufficient condition for minimizing the training loss. Furthermore, we propose a data-dependent initialization method in the over-parameterized setting. Numerical examples are provided to demonstrate the effectiveness of the method and our theoretical findings.
研究动机与目标
- 将可训练性定义并量化为 ReLU 网络成功训练的必要条件。
- 分析在过参数化设置下,初始化时活跃神经元的概率分布。
- 确立过参数化为最小化训练损失的必要且充分条件。
- 开发一种数据相关的初始化方法,以提升过参数化网络中的可训练性。
- 通过数值实验验证理论发现,表明训练成功率得到提升。
提出的方法
- 引入两种神经元死亡状态——暂定死亡和永久死亡,以表征初始化时的非活跃神经元。
- 将可训练性定义为:对于给定学习任务,网络中永久死亡神经元数量足够少的概率。
- 通过分析初始化时活跃神经元的分布,量化过参数化 ReLU 网络中的可训练性。
- 提出一种针对过参数化设置定制的数据相关初始化方案,以减少神经元死亡。
- 通过理论分析表明,过参数化可确保可训练性,从而实现成功训练。
- 通过数值实验验证所提初始化方法及理论结论的有效性。
实验结果
研究问题
- RQ1在神经元死亡状态的视角下,什么定义了一个可训练的 ReLU 网络?
- RQ2初始化时神经元激活的概率如何影响整体可训练性?
- RQ3过参数化是否既是 ReLU 网络中最小化训练损失的必要条件,也是充分条件?
- RQ4数据相关的初始化能否提升过参数化设置下的可训练性?
- RQ5可训练性与实际训练成功率之间存在何种关系?
主要发现
- 可训练性是成功训练的必要条件,并作为训练成功率的上界。
- 过参数化是 ReLU 网络中最小化训练损失的必要且充分条件。
- 所提出的基于数据的初始化方法可减少神经元死亡,并提升过参数化设置下的可训练性。
- 理论分析确认,过参数化可确保初始化时存在足够多活跃神经元的高概率。
- 数值结果表明,与标准方法相比,所提初始化方法显著提升了训练成功率。
- 本研究建立了初始化时神经元激活分布与最终训练性能之间的直接联系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。