[论文解读] Learning Neural Networks with Two Nonlinear Layers in Polynomial Time
该论文提出 Alphatron,一种用于学习具有 Sigmoid 隐层单元和任意 L-Lipschitz、单调输出激活函数(例如 ReLU 或 Sigmoid)的两层神经网络的多项式时间算法。该算法在单位球上的任意分布下实现高效学习,无需分布或结构假设,提供了首个在该类网络上可证明高效且无假设的算法,其样本复杂度和运行时间复杂度在输入维度、网络规模和逆精度上均为多项式。
We give a polynomial-time algorithm for learning neural networks with one layer of sigmoids feeding into any Lipschitz, monotone activation function (e.g., sigmoid or ReLU). We make no assumptions on the structure of the network, and the algorithm succeeds with respect to {\em any} distribution on the unit ball in $n$ dimensions (hidden weight vectors also have unit norm). This is the first assumption-free, provably efficient algorithm for learning neural networks with two nonlinear layers. Our algorithm-- {\em Alphatron}-- is a simple, iterative update rule that combines isotonic regression with kernel methods. It outputs a hypothesis that yields efficient oracle access to interpretable features. It also suggests a new approach to Boolean learning problems via real-valued conditional-mean functions, sidestepping traditional hardness results from computational learning theory. Along these lines, we subsume and improve many longstanding results for PAC learning Boolean functions to the more general, real-valued setting of {\em probabilistic concepts}, a model that (unlike PAC learning) requires non-i.i.d. noise-tolerance.
研究动机与目标
- 开发一种可证明高效的算法,用于学习具有一个隐层 Sigmoid 单元和任意 L-Lipschitz、单调输出激活函数的两层神经网络。
- 消除对数据分布、网络结构或权重向量的限制性假设,实现在单位球上的无假设学习。
- 为学习到的假设提供对可解释特征的高效查询访问,以支持特征层面的解释。
- 通过将已知的 PAC 学习布尔函数结果推广至更一般的概率概念模型,拓展计算学习理论的适用范围。
- 建立首个针对 DNF 公式、半空间的多数函数和子模函数等类别的非 i.i.d. 噪声容错学习算法。
提出的方法
- 提出 Alphatron,一种结合保序回归与核方法的迭代算法,用于学习实值、单调、L-Lipschitz 的特征组合。
- 使用基于核的表示方式,隐式编码特征的乘积,从而在无需显式计算的情况下实现对系数的高效查询访问。
- 应用投影算子于稀疏傅里叶近似,将 KM 算法扩展至适用于光滑、单调函数的概率概念模型。
- 将 Linial-Mansour-Nisan 低次多项式算法推广,用于学习由低权多项式近似的电路的单调组合。
- 利用低权多项式近似器,对具有间隔的半空间交集实现首次多项式时间算法。
- 采用多项式核与核化保序回归,处理袋内实例存在依赖关系的多实例学习(MIL)问题。
实验结果
研究问题
- RQ1我们能否在无分布或结构假设的前提下,以多项式时间学习具有一个隐层 Sigmoid 单元和任意 L-Lipschitz、单调输出激活函数的两层神经网络?
- RQ2我们能否通过将经典布尔概念类推广至实值概率概念,实现对非 i.i.d. 噪声的容忍?
- RQ3即使函数通过核方法隐式表示,我们能否为假设中的可解释特征提供高效的查询访问?
- RQ4我们能否将经典学习算法(如 KM、LMN)推广至概率概念模型,以实现对复杂函数类的广义、噪声容错学习?
- RQ5我们能否在不假设袋内实例独立或不依赖单边噪声学习算法的前提下,实现多实例学习中可证明的泛化?
主要发现
- Alphatron 以在 $n$、$k$、$1/ heta$ 和 $L$ 上为多项式的时间和样本复杂度,学习任意具有一个隐层 Sigmoid 单元和任意 L-Lipschitz、单调输出激活函数的两层 ReLU 或 Sigmoid 网络,实现误差 $ ext{error} riangleq ext{Err}(c, u(f( extbf{x}))) \rightarrow \theta$。
- 该算法首次实现了无假设、多项式时间的两层非线性网络学习,克服了广义学习 ReLU 函数时已知的最坏情况困难性结果。
- 在超立方体上的均匀分布下,Alphatron 通过使用稀疏傅里叶近似,改进了先前工作,实现了对 $L_1$-有界函数的光滑、单调组合的学习。
- 该方法将 Linial-Mansour-Nisan 低次多项式算法推广,允许学习由低权多项式近似的电路的单调组合,在概率概念模型中实现‘免费’学习。
- Alphatron 为半空间的多数函数和 DNF 公式提供了首个非 i.i.d. 噪声容错学习算法,优于先前依赖 i.i.d. 噪声或小间隔结果的方法。
- 在多实例学习中,Alphatron 在单位球上以多项式时间与样本复杂度学习具有常数间隔的半空间和 Sigmoid 网络,在概率 MIL 假设下无需对袋内实例的独立性做假设。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。