Skip to main content
QUICK REVIEW

[论文解读] Depth-Width Trade-offs for ReLU Networks via Sharkovsky's Theorem

Vaggos Chatziafratis, Sai Ganesh Nagarajan|arXiv (Cornell University)|Apr 30, 2020
Model Reduction and Neural Networks参考文献 28被引用 2
一句话总结

本文通过将ReLU网络的表征能力与动力系统理论中的Sharkovsky定理联系起来,建立了深度-宽度权衡关系,表明当深度受限时,具有周期点(尤其是周期-3)的函数需要指数级更宽的网络才能近似。其核心贡献是基于目标函数动力学中不动点的周期,推导出网络宽度的一般下界。

ABSTRACT

Understanding the representational power of Deep Neural Networks (DNNs) and how their structural properties (e.g., depth, width, type of activation unit) affect the functions they can compute, has been an important yet challenging question in deep learning and approximation theory. In a seminal paper, Telgarsky high- lighted the benefits of depth by presenting a family of functions (based on sim- ple triangular waves) for which DNNs achieve zero classification error, whereas shallow networks with fewer than exponentially many nodes incur constant error. Even though Telgarsky’s work reveals the limitations of shallow neural networks, it doesn’t inform us on why these functions are difficult to represent and in fact he states it as a tantalizing open question to characterize those functions that cannot be well-approximated by smaller depths. In this work, we point to a new connection between DNNs expressivity and Sharkovsky’s Theorem from dynamical systems, that enables us to characterize the depth-width trade-offs of ReLU networks for representing functions based on the presence of a generalized notion of fixed points, called periodic points (a fixed point is a point of period 1). Motivated by our observation that the triangle waves used in Telgarsky’s work contain points of period 3 – a period that is special in that it implies chaotic behaviour based on the celebrated result by Li-Yorke – we proceed to give general lower bounds for the width needed to represent periodic functions as a function of the depth. Technically, the crux of our approach is based on an eigenvalue analysis of the dynamical systems associated with such functions.

研究动机与目标

  • 理解为何某些函数难以被浅层网络近似,扩展Telgarsky对三角波函数的研究。
  • 识别使函数难以用窄而浅层网络表示的结构性质。
  • 形式化神经网络表达能力与动力系统理论(尤其是周期点)之间的联系。
  • 基于函数的动力学复杂度,推导出表示周期性函数所需网络宽度的一般下界。
  • 解决Telgarsky关于表征差的函数在小深度网络中难以近似的特征刻画的开放问题。

提出的方法

  • 应用Sharkovsky定理分析函数中周期点的存在性,特别是周期-3,其暗示混沌动力学。
  • 将函数的行为建模为动力系统,并通过分析其相关特征值来推断表征复杂度。
  • 利用周期为k的周期点作为内在复杂性的标志,限制浅层网络的近似能力。
  • 通过将周期点的数量与ReLU网络可形成的线性区域数量关联,推导出网络宽度的下界。
  • 建立函数具有周期-3点时,需指数级宽度的浅层网络才能实现低误差近似,该结论基于系统Jacobian矩阵的特征值分析。
  • 通过将Telgarsky构造中的三角波角色推广至具有特定动力学性质的更广泛周期函数类,实现方法的扩展。

实验结果

研究问题

  • RQ1为何某些函数(如Telgarsky的三角波)尽管连续且分段线性,却难以被浅层ReLU网络近似?
  • RQ2何种动力系统性质解释了浅层网络在特定函数上的表征瓶颈?
  • RQ3周期点(尤其是周期-3)的存在如何与ReLU网络表示函数所需的最小宽度相关联?
  • RQ4Sharkovsky定理能否用于推导出网络宽度的一般下界,作为深度和函数复杂度的函数?
  • RQ5特征值分析在量化浅层ReLU网络表达能力极限方面起到何种作用?

主要发现

  • 包含周期-3点的函数(根据Sharkovsky定理暗示混沌行为)在深度受限时,需要指数级宽度的浅层ReLU网络才能实现低近似误差。
  • 函数中周期为k的周期点的存在,对表示该函数所需的ReLU网络最小宽度施加了下界,且该下界随周期增大而增长。
  • 分析表明,函数的动力学复杂度(以周期点衡量)直接决定了高效表示所需的网络宽度。
  • 浅层网络若神经元数量少于指数级数量,无法以低误差近似具有周期-3点的函数,证实了其根本限制。
  • 对目标函数相关动力系统进行特征值分析,为推导这些宽度下界提供了定量工具。
  • 本文将Telgarsky的结果推广至更广范围,表明核心困难源于周期-3点的存在,而非函数的具体形式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。