Skip to main content
QUICK REVIEW

[论文解读] Deep ReLU Networks Have Surprisingly Few Activation Patterns

Boris Hanin, David Rolnick|arXiv (Cornell University)|Jun 3, 2019
Neural Networks and Applications参考文献 36被引用 24
一句话总结

该论文表明,深层ReLU网络在训练过程中通常具有远少于理论可能的激活模式数量。它证明了激活区域平均数量的紧致上界——该上界与神经元总数的输入维度次方成正比——表明该上界在初始化时即成立,并在整个训练过程中保持紧致,暗示实际表达能力受限于初始化和优化动力学。

ABSTRACT

The success of deep networks has been attributed in part to their expressivity: per parameter, deep networks can approximate a richer class of functions than shallow networks. In ReLU networks, the number of activation patterns is one measure of expressivity; and the maximum number of patterns grows exponentially with the depth. However, recent work has showed that the practical expressivity of deep networks - the functions they can learn rather than express - is often far from the theoretical maximum. In this paper, we show that the average number of activation patterns for ReLU networks at initialization is bounded by the total number of neurons raised to the input dimension. We show empirically that this bound, which is independent of the depth, is tight both at initialization and during training, even on memorization tasks that should maximize the number of activation patterns. Our work suggests that realizing the full expressivity of deep networks may not be possible in practice, at least with current methods.

研究动机与目标

  • 理解为何深层网络在实践中通常表现低于其理论表达能力。
  • 量化ReLU网络中典型激活模式(区域)的数量,而非仅理论最大值。
  • 研究理论表达能力与实际学习函数之间的差距是否源于初始化或优化。
  • 提供理论与实证证据,表明激活区域数量在深度无关的情况下受到限制。
  • 解释基于梯度的训练为何无法实现深层网络表达能力的全部潜力。

提出的方法

  • 使用几何与概率论证,对ReLU网络中的激活区域进行理论分析。
  • 推导单位体积内预期激活区域数量的上界,该上界依赖于神经元数量和输入维度。
  • 利用零偏置ReLU网络中的尺度等变性,证明激活区域数量的上界。
  • 在初始化和训练动力学方面进行实证验证,包括记忆任务。
  • 引入从零偏置网络到一般偏置网络的映射,以比较区域数量。
  • 分析偏置值和梯度行为如何影响激活模式的形成。

实验结果

研究问题

  • RQ1为何深层ReLU网络通常表现出远少于其理论最大值的激活模式?
  • RQ2在实践中,ReLU网络中的激活模式数量是否与深度无关而受到限制?
  • RQ3基于梯度的训练是否显著增加了初始化后的激活模式数量?
  • RQ4初始化方案和偏置分布如何影响激活区域的形成?
  • RQ5观察到的激活模式数量限制是否可由神经元行为的几何与概率约束来解释?

主要发现

  • ReLU网络中激活模式的平均数量受神经元总数的输入维度次方限制,且与深度无关。
  • 该上界在网络初始化时即成立,并在整个训练过程中保持紧致,即使在记忆任务上也是如此。
  • 输入空间中立方体相交的激活区域数量最多增长为 (T × #neurons)^{n_in} / n_in!,其中 T 为常数。
  • 零偏置ReLU网络具有尺度等变性,其激活区域数量受 O(n_in × #neurons)^{n_in - 1} 上界限制。
  • 实证结果证实,即使在最大化记忆能力时,激活区域数量仍远低于理论最大值。
  • 大量激活模式的形成需要高度协调的梯度或较大的输出范围,而这些在标准初始化下均不太可能实现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。