QUICK REVIEW

[论文解读] Neural networks and rational functions

Matus Telgarsky|arXiv (Cornell University)|Jun 11, 2017

Neural Networks and Applications参考文献 13被引用 22

一句话总结

该论文在逼近效率方面建立了ReLU神经网络与有理函数之间的紧密等价关系：两者均可通过大小为 log(1/ε) 的多项式级别的表示相互逼近，而多项式则需要 1/ε 的多项式度数。关键结果表明，尽管有理函数能高效逼近ReLU网络，但网络深度导致有理函数度数出现指数级依赖，该结果通过下界构造被证明是紧致的。

ABSTRACT

Neural networks and rational functions efficiently approximate each other. In more detail, it is shown here that for any ReLU network, there exists a rational function of degree $O( ext{polylog}(1/ε))$ which is $ε$-close, and similarly for any rational function there exists a ReLU network of size $O( ext{polylog}(1/ε))$ which is $ε$-close. By contrast, polynomials need degree $Ω( ext{poly}(1/ε))$ to approximate even a single ReLU. When converting a ReLU network to a rational function as above, the hidden constants depend exponentially on the number of layers, which is shown to be tight; in other words, a compositional representation can be beneficial even for rational functions.

研究动机与目标

通过识别一个既能逼近也能被ReLU网络逼近的函数类，更精细地刻画ReLU神经网络的表达能力。
表明有理函数——即分母为正的多项式之比——是ReLU网络的自然且高效的对应物。
证明ReLU网络被有理函数逼近时，其度数会因深度而产生指数级增长，且该结果被证明是紧致的。
强调即使对于有理函数，组合式神经网络表示形式也优于标准有理函数表示形式。

提出的方法

构建一个度数为 O(poly(log(1/ε))) 的有理函数，以在 ε-一致误差下逼近任意大小为 O(poly(log(1/ε))) 的ReLU网络。
通过区间划分和切线/线性逼近，对有理函数进行分段仿射逼近，以控制子区间上的误差。
利用深度相关的下界构造：设计一个具有 2k 层、每层 2 个节点的难以逼近的ReLU网络，证明任何项数少于 2^{k-2} 的有理函数在 [0,1] 上的 L1 误差必须 ≥1/64。
引入有理网络——使用有理激活函数的神经网络——作为桥梁，证明ReLU网络可被度数仅为 O(log²(l/ε)) 的有理函数逼近。
利用 1/x 在 [1/2, 3/4] 上的凸性和二阶导数下界（f'' ≥ 128/27），推导出仿射逼近的积分误差下界。
通过区间划分和长度阈值（≥1/(8N)）识别近似误差较大的区域，从而实现对显著子区间的求和。

实验结果

研究问题

RQ1ReLU网络能否被有理函数高效逼近？此类逼近的大小复杂度如何？
RQ2有理函数能否被ReLU网络高效逼近？深度如何影响这一权衡？
RQ3为何有理函数表示比多项式逼近更高效？其效率差距的量化程度如何？
RQ4有理函数逼近ReLU网络时对深度的指数依赖是否不可避免？能否证明其紧致性？
RQ5即使在逼近有理函数时，组合式神经网络表示形式是否仍具有优势？

主要发现

一个大小为 O(poly(log(1/ε))) 的ReLU网络，可被一个度数为 O(ln(k/ε)^k * m^k) 的有理函数逼近，其中 m 为每层节点数，k 为层数。
ReLU网络有理逼近中对深度的指数依赖是紧致的：下界表明，任何项数少于 2^{k-2} 的有理函数在逼近一个具有 2k 层、每层 2 个节点的ReLU网络时，其在 [0,1] 上的 L1 误差必须 ≥1/64。
多项式逼近单个 ReLU 也需要 Ω(poly(1/ε)) 的度数，而有理函数仅需 O(poly(log(1/ε))) 的度数，表明其效率存在超多项式差距。
一个具有 O(k) 层和 O(k) 个节点的有理网络，每个节点使用度数为 O(k) 的有理激活函数，无法被任何总项数少于 2^{k-2} 的有理函数以小于 1/128 的 L1 范数误差逼近。
通过有理网络转换ReLU网络为有理函数更具效率：将每个 ReLU 替换为一个度数为 O(log²(l/ε)) 的有理函数，即可实现 ε-逼近。
本文证明，即使对于有理函数，神经网络表示形式也因其组合深度结构，相较于标准有理函数表示形式具有显著的压缩优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。