Skip to main content
QUICK REVIEW

[论文解读] Critical Points of Neural Networks: Analytical Forms and Landscape Properties

Yi Zhou, Yingbin Liang|arXiv (Cornell University)|Oct 30, 2017
Neural dynamics and brain function参考文献 14被引用 30
一句话总结

本文对线性及ReLU激活神经网络中平方损失函数的临界点与全局最小值点提供了完整的解析表征。通过推导临界点的精确形式,证明了线性网络中不存在虚假局部极小值,而单隐藏层ReLU网络可能存在非全局局部极小值,为在无数据或维度限制的通用设定下提供了关于优化景观性质的全新洞见。

ABSTRACT

Due to the success of deep learning to solving a variety of challenging machine learning tasks, there is a rising interest in understanding loss functions for training neural networks from a theoretical aspect. Particularly, the properties of critical points and the landscape around them are of importance to determine the convergence performance of optimization algorithms. In this paper, we provide full (necessary and sufficient) characterization of the analytical forms for the critical points (as well as global minimizers) of the square loss functions for various neural networks. We show that the analytical forms of the critical points characterize the values of the corresponding loss functions as well as the necessary and sufficient conditions to achieve global minimum. Furthermore, we exploit the analytical forms of the critical points to characterize the landscape properties for the loss functions of these neural networks. One particular conclusion is that: The loss function of linear networks has no spurious local minimum, while the loss function of one-hidden-layer nonlinear networks with ReLU activation function does have local minimum that is not global minimum.

研究动机与目标

  • 为各种神经网络架构中平方损失函数的临界点与全局最小值点提供完整(必要且充分)的解析形式表征。
  • 在一般假设下建立景观性质——特别是虚假局部极小值的存在或缺失——而无需依赖可逆性或数据特定约束。
  • 通过去除对数据矩阵和网络维度的假设,推广先前关于线性网络的研究成果,并将分析扩展至非线性ReLU网络。
  • 利用临界点的解析形式,为已知的景观性质提供全新、更简单且更直观的证明。

提出的方法

  • 利用奇异值分解(SVD)和正交块矩阵,推导浅层与深层线性网络的临界点解析形式。
  • 提出一种基于权重矩阵列方向修改的扰动方案,以评估临界点附近的损失函数变化。
  • 使用投影矩阵和基于迹的损失评估方法,比较扰动前后的函数值。
  • 将该方法应用于从非全局最小值临界点识别下降方向,证明线性情况下局部极小值与全局极小值等价。
  • 对单隐藏层ReLU网络的参数空间特定区域中的临界点进行表征,包括单神经元情形下的完整参数空间。
  • 利用矩阵秩条件与奇异值排序,推导全局最优性的必要且充分条件。

实验结果

研究问题

  • RQ1在任意数据与维度下,浅层与深层线性网络中临界点与全局最小值点的必要且充分解析条件是什么?
  • RQ2具有平方损失的单隐藏层ReLU网络的损失函数是否允许存在非全局局部极小值?
  • RQ3在非线性ReLU网络中,特别是单隐藏神经元设置下的整个参数空间中,临界点的解析形式能否被完全表征?
  • RQ4景观性质——如鞍点或虚假局部极小值的存在——如何依赖于临界点的解析结构?
  • RQ5能否在不施加限制性假设的前提下,利用解析形式证明线性网络中局部极小值与全局极小值的等价性?

主要发现

  • 对于浅层线性网络,即使在不假设数据矩阵或网络维度的条件下,每个局部极小值都是全局极小值,而所有其他临界点均为鞍点。
  • 对于深层线性网络,临界点的解析形式将非全局最小值临界点划分为若干类别,并识别出下降方向,证明了局部极小值的全局最优性。
  • 对于单隐藏层ReLU网络,存在非全局局部极小值与局部极大值,通过一个具体例子得到验证,表明其损失景观具有非平凡结构。
  • 临界点的解析形式完全表征了损失值,并为线性网络与ReLU网络中的全局最优性提供了必要且充分条件。
  • 本研究通过去除对数据与网络维度的假设,推广了先前工作,并为景观性质提供了全新的、更简洁的证明框架。
  • 研究证实,矩阵分解(作为线性网络的特例)继承了相同的景观性质:不存在虚假局部极小值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。