QUICK REVIEW

[论文解读] Deep Network Approximation with Discrepancy Being Reciprocal of Width to Power of Depth.

Zuowei Shen, Haizhao Yang|arXiv (Cornell University)|Jun 22, 2020

Advanced Numerical Analysis Techniques被引用 3

一句话总结

本文提出了Floor-ReLU网络——一种使用取整函数和ReLU激活函数的深度神经网络——能够实现对[0,1]^d上利普希茨连续函数和连续函数的指数级逼近速率。当宽度为max{d, 5N+13}、深度为64dL+3时，该网络克服了维度灾难，逼近误差以N^{-√L}的速率衰减，且该衰减速率乘以√d因子，其有效阶次与维度d无关。

ABSTRACT

A new network with super approximation power is introduced. This network is built with Floor ($\lfloor x floor$) and ReLU ($\max\{0,x\}$) activation functions and hence we call such networks as Floor-ReLU networks. It is shown by construction that Floor-ReLU networks with width $\max\{d,\, 5N+13\}$ and depth $64dL+3$ can pointwise approximate a Lipschitz continuous function $f$ on $[0,1]^d$ with an exponential approximation rate $3\mu\sqrt{d}\,N^{-\sqrt{L}}$, where $\mu$ is the Lipschitz constant of $f$. More generally for an arbitrary continuous function $f$ on $[0,1]^d$ with a modulus of continuity $\omega_f(\cdot)$, the constructive approximation rate is $\omega_f(\sqrt{d}\,N^{-\sqrt{L}})+2\omega_f(\sqrt{d}){N^{-\sqrt{L}}}$. As a consequence, this new network overcomes the curse of dimensionality in approximation power since this approximation order is essentially $\sqrt{d}$ times a function of $N$ and $L$ independent of $d$.

研究动机与目标

开发一种具备超强逼近能力的深度网络架构，用于高维函数的逼近。
通过神经网络的深度与宽度设计，解决函数逼近中的维度灾难问题。
仅使用取整函数和ReLU激活函数构建网络，实现可证明的快速收敛速率。
建立逼近误差界，使其在宽度N和深度L上呈有利缩放，且与输入维度d无关。
证明逼近速率仅以√d作为乘法因子，而非依赖于维度的指数形式。

提出的方法

仅使用取整函数和ReLU激活函数构建深度网络，以实现对函数逼近的精确控制。
将网络深度设计为64dL + 3，宽度设计为max{d, 5N+13}，以确保充分的表示能力。
利用取整函数在精细尺度上实现分段常数逼近，从而实现高精度表示。
结合基于取整的离散化与基于ReLU的插值，实现对连续函数的平滑逼近。
通过连续性模ω_f推导逼近误差界，表明误差以ω_f(√d N^{-√L}) + 2ω_f(√d) N^{-√L}的速率衰减。
证明有效逼近阶次为√d乘以N和L的函数，且与d无关，从而克服维度灾难。

实验结果

研究问题

RQ1仅使用取整函数和ReLU激活函数的深度网络，能否在[0,1]^d上对连续函数实现指数级逼近速率？
RQ2逼近误差是否在宽度N和深度L上呈有利缩放，同时保持与输入维度d无关？
RQ3能否通过特定的基于激活函数的网络架构克服神经网络逼近中的维度灾难？
RQ4对于利普希茨函数和连续函数，逼近误差对N、L和d的精确依赖关系是什么？
RQ5与标准ReLU网络相比，取整函数的使用如何增强逼近能力？

主要发现

当宽度为max{d, 5N+13}、深度为64dL+3时，Floor-ReLU网络对利普希茨函数（常数为μ）的逼近速率可达3μ√d N^{-√L}，实现指数级逼近。
对于一般连续函数，逼近误差被限制在ω_f(√d N^{-√L}) + 2ω_f(√d) N^{-√L}范围内，其中ω_f为连续性模。
有效逼近阶次为√d乘以N和L的函数，且与d无关，证明了维度灾难已被克服。
取整函数的使用实现了细粒度离散化，当与ReLU结合时，可实现高精度逼近。
逼近速率在N上衰减快于任意多项式，实现了深度与宽度上的类指数收敛。
网络结构为显式构造，不依赖随机或隐式训练过程，确保理论保证的成立。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。