QUICK REVIEW
[论文解读] Optimal approximation of continuous functions by very deep ReLU networks
Dmitry Yarotsky|arXiv (Cornell University)|Feb 10, 2018
Neural Networks and Applications参考文献 20被引用 121
一句话总结
本论文通过极深的 ReLU 网络表征对 [0,1]^ν 上连续函数的最优近似速率,识别出两个不同阶段和随深度变化的速率。
ABSTRACT
We consider approximations of general continuous functions on finite-dimensional cubes by general deep ReLU neural networks and study the approximation rates with respect to the modulus of continuity of the function and the total number of weights $W$ in the network. We establish the complete phase diagram of feasible approximation rates and show that it includes two distinct phases. One phase corresponds to slower approximations that can be achieved with constant-depth networks and continuous weight assignments. The other phase provides faster approximations at the cost of depths necessarily growing as a power law $L\sim W^α, 0
研究动机与目标
- 研究一般在 [0,1]^ν 上的连续函数能被深度 ReLU 网络逼近到何种程度,作为权重数量 W 和连续性模量 ω_f 的函数。
- 确定更快的收敛速率是否需要更大的深度或不连续的权重赋值。
- 建立可行近似速率的完整相图并识别每个阶段的条件。
- 给出达到最优速率的架构,并证明它们在对数因子内的最优性。
提出的方法
- 给出连续性模量 ω_f 的定义,并研究在无穷范数 ||f - f~||_∞ 下的逼近,关于 W 与 p 的关系:||f - f~|| ≤ a ω_f(c W^{-p})。
- 证明在 VC 维界限下,p ≤ 2/ν 是可行的,而 p > 2/ν 是不可行。
- 证明一个相变:p = 1/ν 在连续权重赋值和固定深度结构下可实现;p ∈ (1/ν, 2/ν] 需要带有不连续权重的深度网络。
- 构造两尺度架构:第一阶段使用 O(W^{1/ν}) 的节点进行初始插值,第二阶段通过特殊权重编码的离散逼近以实现 p 在 (1/ν, 2/ν]。
- 证明 p = 2/ν 可以通过固定宽度、宽度固定的窄全连接架构实现,并且深度 L 随 W 增长,以及 p ∈ (1/ν, 2/ν) 可以通过叠层架构实现。
- 利用比特提取技术和两尺度展开实现近似的第二阶段。
实验结果
研究问题
- RQ1在权重数量 W 的函数下,连续函数在 [0,1]^ν 上可被 ReLU 网络逼近的最优速率是什么?
- RQ2深度 L 与权重连续性如何影响可实现的速率,关于 p 的速率是否存在相变?
- RQ3哪些网络架构可以实现最优速率,在不同区间需要的深度与宽度要求是什么?
- RQ4是否存在区分可行与不可行速率的基本界限,以及 VC 维度推导如何约束这些速率?
主要发现
- 存在一个完整的近似速率相图,由连续性模量和权重数量 W 参数化。
- 最快可实现的速率是 O(ω_f(O(W^{-2/ν}))),要求深度按幂律增长 L ~ W^{α},其中 0 < α ≤ 1,并且需要不连续的权重赋值。
- 较慢但可行的速率 O(ω_f(O(W^{-1/ν}))) 可以通过常深度网络和连续权重赋值实现。
- 识别出两个不同的阶段:一个是深度常数的慢相,权重连续;另一个是深度网络且权重不连续的快相。
- 特别地,深度 L ~ W 的常宽全连接网络可以达到最快速率,且用较浅的网络无法达到该速率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。