[论文解读] On the Impact of the Activation Function on Deep Neural Networks Training
该论文分析激活函数选择与权重初始化,尤其是在 Edge of Chaos (EOC) 条件下,对深度网络信号传播与训练速度的影响,结果显示平滑激活与 EOC 调参可加速训练。
The weight initialization and the activation function of deep neural networks have a crucial impact on the performance of the training procedure. An inappropriate selection can lead to the loss of information of the input during forward propagation and the exponential vanishing/exploding of gradients during back-propagation. Understanding the theoretical properties of untrained random networks is key to identifying which deep networks may be trained successfully as recently demonstrated by Samuel et al (2017) who showed that for deep feedforward neural networks only a specific choice of hyperparameters known as the `Edge of Chaos' can lead to good performance. While the work by Samuel et al (2017) discuss trainability issues, we focus here on training acceleration and overall performance. We give a comprehensive theoretical analysis of the Edge of Chaos and show that we can indeed tune the initialization parameters and the activation function in order to accelerate the training and improve the performance.
研究动机与目标
- 评估激活函数和初始化如何影响深度网络的前向信号传播。
- 表征不同激活函数的 Edge of Chaos (EOC) 及其对训练动态的影响。
- 提出在 EOC 上定位并利用最佳点以加速训练的程序。
- 通过理论与实验证明平滑激活在深层情形下优于 ReLU 类函数。
- 提供初始化与激活函数选择的实践指南,以提高训练效率。
提出的方法
- 将神经网络建模为在无限宽度/有限方差的情形下的高斯过程,以推导核/方差递推。
- 通过逐层递推的激活相关变换,定义并分析方差函数 F 与相关性函数 c。
- 通过条件 chi1 = sigma_w^2 E[phi'(sqrt(q)Z)^2] = 1 来表征 Edge of Chaos 及其对信息传播的影响。
- 给出 ReLU-like 与平滑激活函数的解析结果,详细描述相关性在 EOC 上的收敛速率(如 O(1/l^2) 对比 O(1/l))。
- 证明在 A 类中的平滑激活在 EOC 上具有较慢的相关性衰减(O(1/l))与更好的梯度传播,而 ReLU 在 EOC 上呈现类残差的行为。
- 提供一个计算给定 phi 的 EOC 曲线的算法(算法 1),并推导基于 EOC 的实用初始化规则(如使 beta_q 与深度对齐)。
- 在 MNIST 与 CIFAR-10 上进行实验,对比不同激活函数下的 EOC、EOC+BN 与有序相初始值的表现(ReLU、ELU、Tanh)。
实验结果
研究问题
- RQ1激活函数形状(ReLU-like 与平滑)在随机初始化下对深层网络的前向信号传播与梯度流动有何影响?
- RQ2不同激活函数的 Edge of Chaos 是什么,如何计算并用于加速训练?
- RQ3平滑激活是否比 ReLU 类激活能实现更深的信号传播,其层间相关性的收敛速率如何?
- RQ4是否能推导出在 EOC 上选择初始化参数(sigma_b、sigma_w)以优化训练深度与速度的实用准则?
- RQ5相比于有序相初始化或 BatchNorm,在 EOC 初始化上能带来多少训练速度与精度的实际提升?
主要发现
| Activation | MNIST EOC (Test Accuracy %) | MNIST EOC+BN (Test Accuracy %) | MNIST Ord Phase (Test Accuracy %) | CIFAR10 EOC (Test Accuracy %) | CIFAR10 EOC+BN (Test Accuracy %) | CIFAR10 Ord Phase (Test Accuracy %) |
|---|---|---|---|---|---|---|
| ReLU | 93.57 ± 0.18 | 93.11 ± 0.21 | 10.09 ± 0.61 | 36.55 ± 1.15 | 35.91 ± 1.52 | 9.91 ± 0.93 |
| ELU | 97.62 ± 0.21 | 93.41 ± 0.30 | 10.14 ± 0.51 | 45.76 ± 0.91 | 44.12 ± 0.93 | 10.11 ± 0.65 |
| Tanh | 97.20 ± 0.30 | 10.74 ± 0.10 | 10.02 ± 0.13 | 44.11 ± 1.02 | 10.15 ± 0.85 | 9.82 ± 0.88 |
- 在 Edge of Chaos (EOC) 初始深度网络可提升信息传播并在多种激活下加速训练。
- 在 EOC 上的 ReLU-like 激活在相关传播中表现出残差样行为,相关性向 1 的多项式衰减为 1/l^2,优于有序相中的指数衰减。
- 平滑激活函数(如 Tanh、ELU、SiLU)在 EOC 上支持更深的信号传播,相关性收敛速率为 O(1/l),在深层场景中优于 ReLU。
- 在平滑激活的情况下,EOC 在 (sigma_b, sigma_w) 平面上形成一条曲线,而 ReLU 收敛为一个点,从而可以通过算法计算出最优的 EOC 点(算法1)。
- 选择使深度量 beta_q 与网络深度 L 大致匹配的 sigma_b,可提升训练性能,平衡前向传播和梯度稳定性。
- 在 MNIST 与 CIFAR-10 的实验中,EOC 初始化(不含 BatchNorm)在 100 轮、深度 200、宽度 300 的设置下往往获得最佳测试准确率,且平滑激活优于 ReLU。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。