[论文解读] Uniform Approximation by Neural Networks Activated by First and Second Order Ridge Splines
本文建立了使用 ReLU 和平方 ReLU 岭函数的线性组合来近似多元函数时的 $ L^∞ $ 和 $ L^2 $ 误差界,其中对内部和外部参数施加了 $ \ell^1 $ 和 $ \ell^0 $ 约束。结果表明,$ L^2 $ 误差随内部层 $ \ell^0 $ 稀疏度的增加而反比减小,且在外层 $ \ell^0 $ 稀疏度上呈次线性关系,采用 Jones-Barron 概率方法的一种变体,在谱条件成立时实现了近似最优。
We establish $ L^{\infty} $ and $ L^2 $ error bounds for functions of many variables that are approximated by linear combinations of ReLU (rectified linear unit) and squared ReLU ridge functions with $ \ell^1 $ and $ \ell^0 $ controls on their inner and outer parameters. With the squared ReLU ridge function, we show that the $ L^2 $ approximation error is inversely proportional to the inner layer $ \ell^0 $ sparsity and it need only be sublinear in the outer layer $ \ell^0 $ sparsity. Our constructions are obtained using a variant of the Jones-Barron probabilistic method, which can be interpreted as either stratified sampling with proportionate allocation or two-stage cluster sampling. We also provide companion error lower bounds that reveal near optimality of our constructions. Despite the sparsity assumptions, we showcase the richness and flexibility of these ridge combinations by defining a large family of functions, in terms of certain spectral conditions, that are particularly well approximated by them.
研究动机与目标
- 分析使用 ReLU 和平方 ReLU 岭函数并施加结构化稀疏性约束的神经网络的近似能力。
- 在内部和外部层参数的 $ \ell^1 $ 与 $ \ell^0 $ 控制下,推导出紧致的 $ L^\infty $ 和 $ L^2 $ 误差界。
- 证明 $ L^2 $ 误差对外部层 $ \ell^0 $ 稀疏度具有有利依赖性,且对内部层 $ \ell^0 $ 稀疏度呈次线性依赖。
- 通过互补的下界分析,建立所提构造的近似最优性。
- 识别出一类广义函数——其特征由谱条件刻画——特别适合通过这些岭函数组合进行高效近似。
提出的方法
- 将 Jones-Barron 概率方法改编为一种框架,用于构建具有可控稀疏性的神经网络近似。
- 将该构造解释为分层抽样,采用比例分配或两阶段聚类抽样,以确保函数空间的均匀覆盖。
- 使用 ReLU 和平方 ReLU 岭函数的线性组合作为基函数,参数通过 $ \ell^0 $ 和 $ \ell^1 $ 范数进行约束。
- 对目标函数施加谱条件,以刻画可高效近似的函数类。
- 通过分析概率构造下函数类的覆盖数,推导出 $ L^\infty $ 和 $ L^2 $ 范数下的误差界。
- 建立近似误差的下界,以证明所提构造的近似最优性。
实验结果
研究问题
- RQ1对内部和外部参数施加 $ \ell^0 $ 和 $ \ell^1 $ 约束时,如何影响 ReLU 和平方 ReLU 岭网络的 $ L^\infty $ 和 $ L^2 $ 近似误差?
- RQ2Jones-Barron 方法能否被调整以对具有稀疏性约束的基于岭函数的神经网络近似获得紧致误差界?
- RQ3在这些网络中,$ L^2 $ 误差对外部层和内部层的稀疏度水平有何依赖关系?
- RQ4哪些多元函数类特别适合通过这些岭函数组合进行近似?
- RQ5所提构造与该函数类理论近似误差极限的接近程度如何?
主要发现
- 在指定谱类中的函数,其 $ L^2 $ 近似误差与内部层参数的 $ \ell^0 $ 稀疏度成反比。
- 外层 $ \ell^0 $ 稀疏度对 $ L^2 $ 误差的影响呈次线性,表明随着外层稀疏度增加,收益递减。
- 所提构造实现了近似最优性,互补下界与上界仅相差对数因子。
- 该方法通过解释为分层或聚类抽样框架的概率采样,实现了 $ L^\infty $ 和 $ L^2 $ 范数下的统一近似。
- 证明了一类满足特定谱条件的函数家族可通过这些岭函数组合实现高效近似。
- 在相同稀疏性约束下,使用平方 ReLU 岭函数可提高近似效率,尤其在 $ L^2 $ 范数下表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。