QUICK REVIEW
[论文解读] Learning Functions: When Is Deep Better Than Shallow
H. N. Mhaskar, Qianli Liao|arXiv (Cornell University)|Mar 3, 2016
Domain Adaptation and Few-Shot Learning参考文献 25被引用 105
一句话总结
该论文证明深度(分层)网络在逼近组成函数方面的精度与浅层网络相同,但训练参数数量呈指数级显著减少且VC维更小,从而回应 Bengio 的深度猜想。
ABSTRACT
While the universal approximation property holds both for hierarchical and shallow networks, we prove that deep (hierarchical) networks can approximate the class of compositional functions with the same accuracy as shallow networks but with exponentially lower number of training parameters as well as VC-dimension. This theorem settles an old conjecture by Bengio on the role of depth in networks. We then define a general class of scalable, shift-invariant algorithms to show a simple and natural set of requirements that justify deep convolutional networks.
研究动机与目标
- 激发关于在何时深度能够相对于浅层网络提供优势的问题。
- 定量比较浅层与深层架构在逼近组成函数方面的表现。
- 建立近似界,显示深度网络在参数数量和VC维方面的节省。
- 将分层组成结构与实际可扩展、平移不变的深层卷积网络联系起来。
- 提供一个通过二叉树模型和高斯网络将通用逼近与深度联系起来的框架。
提出的方法
- 将深度网络建模为岭函数单元的二叉树层级结构。
- 对属于相应光滑性类别的函数,比较浅层网络 S_n 和深层网络 D_n 的逼近能力。
- 证明逼近速率:若 f ∈ W_{r,d}^{NN},则 dist(f, S_n) = O(n^{-r/d});若 f ∈ W_{H,r,d}^{NN},则 dist(f, D_n) = O(n^{-r/2})。
- 并将分析扩展到高斯网络,定义函数空间 W_{r,d}、基于 K-函数的范数 K_{r,d}(f, δ),以及 γ-平滑类 W_{γ} 等。
- 推导浅层与二叉树深层网络的VC维界,并将其与 fat-shattering 维度联系起来。
实验结果
研究问题
- RQ1深度在何时以及为何在逼近函数,特别是具有组成结构的函数方面,给出定量优势?
- RQ2在光滑性假设下,浅层与深层网络的逼近速率和参数复杂度如何标度?
- RQ3分层结构和平移不变性(如卷积网络中)是否能在理论上被证明是可扩展算法的自然特征?
- RQ4与浅层网络相比,深层分层结构对 VC 维的含义是什么?
- RQ5在类似假设下,高斯网络是否也表现出与深度相关的改进?
主要发现
- 深度网络在组成函数的近似精度方面能够与浅层网络相匹配,但参数数量显著减少呈指数级。
- 对于一般光滑函数,浅层网络需要 O(ε^{-d/r}) 个参数来达到精度 ε,而具有同构成结构的深层网络只需 O(ε^{-2/r}) 参数。
- 定理结果在相同光滑性约束下,深层分层结构的近似误差衰减更快。
- 深度二叉树网络的 VC 维界比浅层网络更紧,体现了复杂度的降低。
- 一个通用框架表明可扩展、平移不变的深度卷积网络是适合组成性、多尺度数据(如图像)的天然选择。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。