[论文解读] Approximation spaces of deep neural networks
本文为深度神经网络引入了逼近空间,形式化了可通过网络复杂度逐步提升而高效逼近的函数类。研究证明这些空间是定义良好的(拟)巴拿赫空间,表明跳跃连接不会改变所得空间的结构,并将基于ReLU的网络与经典Besov空间联系起来——表明即使函数的Besov正则性较低,只要网络足够深,仍可被良好逼近。
We study the expressivity of deep neural networks. Measuring a network's complexity by its number of connections or by its number of neurons, we consider the class of functions for which the error of best approximation with networks of a given complexity decays at a certain rate when increasing the complexity budget. Using results from classical approximation theory, we show that this class can be endowed with a (quasi)-norm that makes it a linear function space, called approximation space. We establish that allowing the networks to have certain types of "skip connections" does not change the resulting approximation spaces. We also discuss the role of the network's nonlinearity (also known as activation function) on the resulting spaces, as well as the role of depth. For the popular ReLU nonlinearity and its powers, we relate the newly constructed spaces to classical Besov spaces. The established embeddings highlight that some functions of very low Besov smoothness can nevertheless be well approximated by neural networks, if these networks are sufficiently deep.
研究动机与目标
- 通过基于最佳逼近误差衰减率的逼近空间定义,形式化深度神经网络的表达能力。
- 证明在适当范数下,这些逼近空间构成定义良好的(拟)巴拿赫函数空间。
- 研究跳跃连接是否改变所得逼近空间的结构。
- 分析激活函数(尤其是ReLU及其幂次)对所得逼近空间的影响。
- 阐明网络深度在实现对低正则性函数(如低阶Besov空间中的函数)逼近中的作用。
提出的方法
- 将逼近空间定义为:随着网络复杂度(以连接数或神经元数衡量)增加,其最佳逼近误差以特定速率衰减的函数集合。
- 使用经典逼近理论为逼近空间赋予(拟)范数,确保其完备性与线性结构。
- 应用逼近理论中的直接与逆估计来刻画该空间,并证明嵌入结果。
- 通过范数等价性论证分析跳跃连接的影响,证明其不改变所得逼近空间。
- 通过小波表征与分段多项式逼近,将ReLU网络的逼近空间与经典Besov空间联系起来。
- 使用尺度变换与局部化技术(如截断函数与二进分解)构造反例,证明在某些情况下存在严格包含关系。
实验结果
研究问题
- RQ1能否为深度神经网络复杂度逐步提升时可被良好逼近的函数集合赋予自然的(拟)范数函数空间结构?
- RQ2跳跃连接如何影响深度神经网络所得逼近空间的结构?
- RQ3ReLU网络的逼近空间与经典函数空间(如Besov空间)之间存在何种关系?
- RQ4网络深度在多大程度上使低正则性函数(以Besov范数量化)的逼近成为可能?
- RQ5激活函数的选择(如ReLU与其它非线性函数)是否从根本上改变逼近空间?
主要发现
- 在适当(拟)范数下,最佳逼近误差以给定速率衰减的函数类构成定义良好的(拟)巴拿赫空间。
- 跳跃连接不改变所得逼近空间,即该空间在该类网络结构修改下保持不变。
- 对于ReLU及其幂次,逼近空间嵌入于经典Besov空间中,且当正则性指标较低时,该嵌入为严格嵌入。
- 即使Besov正则性极低(例如,$ s < d/p $),只要深度足够大,仍可被深层ReLU网络良好逼近。
- 具有ReLU激活函数的深度网络的逼近空间严格大于浅层网络的逼近空间,凸显了深度的优势。
- 某些函数(如局域振荡函数)的逼近误差随网络复杂度呈多项式衰减,且该衰减速率可由Besov空间嵌入精确刻画。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。