QUICK REVIEW
[论文解读] Toward Deeper Understanding of Neural Networks: The Power of Initialization and a Dual View on Expressivity
Amit Daniely, Roy Frostig|arXiv (Cornell University)|Feb 18, 2016
Adversarial Robustness in Machine Learning被引用 46
一句话总结
本文提出神经网络与组合核空间之间的一种对偶性,表明随机权重初始化可生成足够丰富的表征,以近似对偶核空间中的所有函数。关键结果是仅通过凸优化调整最后一层即可实现良好性能,解释了尽管目标函数非凸,训练仍能成功的原因,并为初始化和网络结构设计提供了理论依据。
ABSTRACT
We develop a general duality between neural networks and compositional kernels, striving towards a better understanding of deep learning. We show that initial representations generated by common random initializations are sufficiently rich to express all functions in the dual kernel space. Hence, though the training objective is hard to optimize in the worst case, the initial weights form a good starting point for optimization. Our dual view also reveals a pragmatic and aesthetic perspective of neural networks and underscores their expressive power.
研究动机与目标
- 理解随机梯度下降为何能在非凸优化景观下成功训练深度神经网络。
- 形式化神经网络架构与其对应组合核空间之间的对偶性。
- 解释随机权重初始化的实证成功及其作为优化强起点的作用。
- 为常见架构选择(如ReLU激活函数和卷积结构)提供理论依据。
- 推导一种改进标准实践的有原则的初始化方案,通过引入微小校正因子。
提出的方法
- 引入'计算骨架'概念,以抽象前馈网络的结构形式,独立于具体权重。
- 为每个非线性激活函数定义对偶激活函数,从而构建相应的组合核空间。
- 证明由随机权重生成的初始表征在对偶核空间中是稠密的,可近似该空间中的所有函数。
- 表明仅优化最后一层权重是架构选择的凸代理,因其可近似对偶空间中的任意函数。
- 通过激活函数(如ReLU)的数学分析,证明其对初始化方差具有鲁棒性,归因于正齐次性。
- 推导出一种校正后的初始化方案,可在缩放下保持初始表征分布不变,从而提升深层网络的稳定性。
实验结果
研究问题
- RQ1为何随机权重初始化在非凸性存在的情况下,仍能实现深度神经网络的有效优化?
- RQ2如何将神经网络的表征能力正式关联到其架构和激活函数?
- RQ3能否为任意神经网络架构构造对偶核空间?其揭示了网络函数空间的哪些特性?
- RQ4为何ReLU激活函数在实践中特别有效?其何种结构特性使其对初始化扰动具有鲁棒性?
- RQ5最后层调优过程能否作为全训练前比较不同网络架构的凸代理?
主要发现
- 随机权重初始化生成的表征足够丰富,可近似与给定网络架构相关的对偶核空间中的所有函数。
- 仅调整最后一层权重是凸优化问题,可近似对偶核空间中的任意函数,从而解释了训练算法的成功。
- ReLU激活函数因具有正齐次性,对初始化方差具有鲁棒性,可在缩放下保持表征分布不变。
- 对于使用ReLU激活的全连接网络,即使初始化尺度发生适度变化,随机初始化仍能良好近似对偶核。
- 无论使用何种非线性激活函数,深层全连接网络的对偶核在深度增加时均会收敛至退化形式。
- 对于某些激活函数,两个连续的全连接层可被一个具有复合对偶激活的单层替代,而不改变对偶核空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。