QUICK REVIEW

[论文解读] Representation Benefits of Deep Feedforward Networks

Matus Telgarsky|arXiv (Cornell University)|Sep 27, 2015

Neural Networks and Applications参考文献 5被引用 141

一句话总结

本文证明，对于某些分类问题，深度前馈ReLU网络可使用比浅层网络少指数倍的参数实现零误差分类，而浅层网络的误差至少为1/6。该文构造了一类(n-ap)问题，在[0,1]区间内均匀分布的2^k个点上具有交替的标签，表明一个含2个神经元、2k层的循环网络可实现完美分类，而浅层网络需指数级更多的神经元才能达到相同性能。

ABSTRACT

This note provides a family of classification problems, indexed by a positive integer $k$, where all shallow networks with fewer than exponentially (in $k$) many nodes exhibit error at least $1/6$, whereas a deep network with 2 nodes in each of $2k$ layers achieves zero error, as does a recurrent network with 3 distinct nodes iterated $k$ times. The proof is elementary, and the networks are standard feedforward networks with ReLU (Rectified Linear Unit) nonlinearities.

研究动机与目标

证明深度前馈网络可在浅层网络受根本限制的特定问题上实现完美分类。
通过一个具有交替标签的结构化分类问题，量化深度在表征能力上的指数级优势。
表明即使参数极少的循环网络也能在相同问题上实现零误差，凸显其架构效率。
通过锯齿函数分析与函数复杂度的计数论证，提供表征优势的初等证明。
将结果与神经网络表达能力、电路复杂度及统计学习理论等更广泛主题相联系。

提出的方法

在[0,1]区间内构造具有2^k个均匀分布点、标签交替的n-alternating-point（n-ap）问题。
通过迭代组合一个含2个神经元的ReLU网络，构造分段仿射函数f_m^k，精确映射每个点x_i到其标签y_i。
证明任意每层含m个神经元、共l层的浅层网络，当σ为t-锯齿函数时，最多产生(t m)^l个锯齿区域。
应用计数论证：t-锯齿函数最多与1/2相交2t次，限制其匹配快速交替标签的能力。
利用f_m^k为2^k-锯齿函数的性质，使其能正确分类所有2^k个点。
建立递归网络f_m^k ∈ R(σ_r;2,2;k)可实现零误差，而参数少于指数级数量的浅层网络无法实现。

实验结果

研究问题

RQ1深度前馈网络是否可在浅层网络存在根本限制的问题上实现零分类误差？
RQ2在结构化分类问题上，为匹配深度网络的性能，浅层网络所需的最少神经元数量是多少？
RQ3在参数效率方面，循环网络的表征能力与标准前馈网络相比如何？
RQ4锯齿函数的性质在多大程度上限制了浅层网络的分类误差？
RQ5在实现结构化数据的精确分类时，深度、宽度与参数数量之间的定量权衡是什么？

主要发现

对于2^k-交替点问题，一个每层含2个神经元、共2k层的深度网络可实现零分类误差。
任意每层含m个神经元、共l层的浅层网络，其分类误差至少为(n - 4(2m)^l)/(3n)，其中n = 2^k。
当m ≤ 2^{(k-3)/l - 1}时，浅层网络的最小误差下界为1/6，即使k增大也保持不变。
仅含每层2个神经元、迭代k次的循环网络可在同一问题上实现零误差。
浅层网络生成的函数中区域数（锯齿段数）受限于(t m)^l，这限制了其匹配快速变化标签的能力。
结果表明参数效率存在指数级分离：为实现零误差，浅层网络所需参数数远超深度或循环网络。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。