Skip to main content
QUICK REVIEW

[论文解读] Adding One Neuron Can Eliminate All Bad Local Minima

Shiyu Liang, Ruoyu Sun|arXiv (Cornell University)|May 22, 2018
Machine Learning and Algorithms参考文献 25被引用 50
一句话总结

本文证明,在二分类问题中,加入一个带跳连的单一特殊神经元以及一个正则化项可以消除所有坏的局部极小值;每个局部极小值都是全局极小值,且在最优点处扩展的神经元处于不激活状态。

ABSTRACT

One of the main difficulties in analyzing neural networks is the non-convexity of the loss function which may have many bad local minima. In this paper, we study the landscape of neural networks for binary classification tasks. Under mild assumptions, we prove that after adding one special neuron with a skip connection to the output, or one special neuron per layer, every local minimum is a global minimum.

研究动机与目标

  • 动机:说明二分类神经网络的非凸损失景观的难点。
  • 提出一种对神经网络的结构修改,使损失面不存在坏的局部极小值。
  • 在有限的假设下,建立局部极小值对应全局最优的训练损失和错误分类性能。
  • 探讨对带跳连接、逐层增强和替代神经元类型的架构的扩展。

提出的方法

  • 给出一个具有标准架构和用于二分类的损失的神经网络 f 的定义。
  • 引入一个增强模型 tilde{f}(x, tilde{θ}) = f(x; θ) + a exp(w^T x + b) 以及对 a 的二次正则化(即 lambda a^2/2)。
  • 证明增强经验损失 tilde{L}_n 的任意局部极小值都是全局的。
  • 证明在每个局部极小值处,指数神经元处于不激活状态,使 tilde{f} 等价于 f。
  • 将结果推广到在每一层都加入指数神经元的架构,以及在某些条件下对单项式神经元替代的情况。
  • 给出扩展,包括移除跳跃连接视图、使用多项式神经元,以及在凸损失下处理不可实现数据的情形。

实验结果

研究问题

  • RQ1是否可以通过添加一个带正则化的单一特殊神经元来消除二分类网络中的所有坏局部极小值?
  • RQ2结果是否扩展到带跳连接或逐层增强、使用不同类型神经元的架构?
  • RQ3在损失、数据可实现性和激活函数上的哪些条件能确保不存在伪局部极小值?
  • RQ4在非光滑激活(如 ReLU)或多项式/单项式增强下结果是否仍成立?
  • RQ5在这些增强下,高阶驻点如何与全局最优性相关?

主要发现

  • 在对损失和可实现性有温和假设的前提下,添加一个带二次正则化的指数神经元不会产生坏的局部极小值。
  • 在每个局部极小值处,增强的指数神经元处于非激活状态,因此原始网络已经达到全局最小值。
  • 结果推广到在每一层添加指数神经元的架构以及在适当次数条件下的单项式神经元。
  • 有推论表明局部极小值时增强网络与原始网络等价,保持原始网络的表示能力。
  • 该框架适用于一般神经网络结构和各种激活类型,包括类似 ReLU 的函数。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。