QUICK REVIEW

[论文解读] Global optimality conditions for deep neural networks

Chulhee Yun, Suvrit Sra|arXiv (Cornell University)|Jul 8, 2017

Stochastic Gradient Optimization Techniques参考文献 10被引用 56

一句话总结

本文在深度线性网络中推导全局必要且充分全局最优性条件，并在函数空间框架下将类似结果推广到非线性网络，提供高效可检验的测试以区分全局最小值和鞍点。

ABSTRACT

We study the error landscape of deep linear and nonlinear neural networks with the squared error loss. Minimizing the loss of a deep linear neural network is a nonconvex problem, and despite recent progress, our understanding of this loss surface is still incomplete. For deep linear networks, we present necessary and sufficient conditions for a critical point of the risk function to be a global minimum. Surprisingly, our conditions provide an efficiently checkable test for global optimality, while such tests are typically intractable in nonconvex optimization. We further extend these results to deep nonlinear neural networks and prove similar sufficient conditions for global optimality, albeit in a more limited function space setting.

研究动机与目标

激发对深度网络中非凸损失景观的理论理解。
提供深度线性网络全局极小值的必要且充分条件。
在函数空间视角下将全局最优性结果扩展到深度非线性网络。
提供可高效计算的测试，在优化过程中区分全局最小值和鞍点。
将结果与关于深度、残差以及线性与非线性设置的既有工作联系起来。

提出的方法

将深度线性网络的经验风险表述为 L(W) = 1/2 ||W_{H+1}...W_1 X - Y||_F^2，并研究其临界点。
引入一个松弛项 L_0(R) = 1/2 ||RX - Y||_F^2，且秩(R) ≤ k，以将网络输出与低秩近似联系起来。
推导全局最优性的必要充要条件：若 k = min{dx, dy}，则秩(W_{H+1}...W_1) = k 的临界点为全局极小值；若 k < min{dx, dy}，则再加入一个列空间对齐条件，使用来自 YX^T(XX^T)^{-1}X 的 SVD 的 hat{U} 的投影矩阵。
给出相对于每个 W_i 的 L(W) 的导数，以表征临界点。
通过函数空间框架扩展到非线性设置，使用Fréchet导数和雅可比矩阵，在层函数接近单位或在特定子块可逆时获得全局最优性的充分条件。
表明非线性结果推广了先前的线性结果并且与残差网络分析相关。

实验结果

研究问题

RQ1在何种条件下，深度线性网络损失的临界点是全局最优的？
RQ2是否可以通过对层积的秩和子空间条件来高效地区分全局最小值与鞍点？
RQ3结果如何扩展到总体风险和通过函数空间方法的非线性网络？
RQ4在函数空间 setting 中，哪些实际的充分条件能保证非线性网络的全局最优性？

主要发现

对于深度线性网络来说，如果所有权重矩阵的乘积的秩达到等于最小层宽度的全秩，则每个临界点都是全局最小值，位于该集合之外的点都是鞍点。
若最小层宽度 k 小于输入/输出维度，采用与 YX^T(XX^T)^{-1}X 的前 k 个奇异向量相关的子空间对齐条件，在满足时得到全局最小值；否则，临界点为鞍点。
松弛项 L_0(R) 提供了通向全局最优性的桥梁，在无约束情形中确定唯一全局最优 R^*，以及在有约束情形中的投影。
在非线性设置中，两条定理给出在临界点处基于雅可比矩阵性质和某些子网络组合可逆性的全局最优性的充分条件；这些将线性结果拓展到函数空间视角。
推论将总体风险和残差网络分析与提出的线性结果联系起来，显示与既有工作（例如 Hardt 与 Ma、Bartlett 等）的一致性。
该方法提供了通常对一般非凸优化难以运算的全局最优性可高效检验的准则。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。