Skip to main content
QUICK REVIEW

[论文解读] On the Global Convergence of Gradient Descent for Over-parameterized Models using Optimal Transport

Lénaïc Chizat, Francis Bach|arXiv (Cornell University)|May 23, 2018
Stochastic Gradient Optimization Techniques参考文献 1被引用 187
一句话总结

本文研究离散化测度(粒子)上的梯度流,并证明在大量粒子极限下,相关的 Wasserstein 梯度流在满足某些同质性与初始化分离条件时收敛到全局最小值。这为过参数化、非凸模型提供了定性一致性原则。

ABSTRACT

Many tasks in machine learning and signal processing can be solved by minimizing a convex function of a measure. This includes sparse spikes deconvolution or training a neural network with a single hidden layer. For these problems, we study a simple minimization method: the unknown measure is discretized into a mixture of particles and a continuous-time gradient descent is performed on their weights and positions. This is an idealization of the usual way to train neural networks with a large hidden layer. We show that, when initialized correctly and in the many-particle limit, this gradient flow, although non-convex, converges to global minimizers. The proof involves Wasserstein gradient flows, a by-product of optimal transport theory. Numerical experiments show that this asymptotic behavior is already at play for a reasonable number of particles, even in high dimension.

研究动机与目标

  • 解释在过参数化设置中,何时以及为何非凸粒子梯度流收敛到全局最小值。
  • 将有限粒子梯度流与无限维 Wasserstein 梯度流框架联系起来。
  • 展示同质性与结构化初始化如何在 lifted 形式下实现对神经网络与稀疏解卷积相关的全局最优性。
  • 通过将结果应用于单隐藏层神经网络和稀疏尖峰解卷积,提供可操作的指导。

提出的方法

  • 将未知测度提升为凸函数 F(mu),通过 lifted 表示 Phi 与域 Omega 将平滑损失 R 与势 V 分离。
  • 将 mu 离散化为 m 粒子混合物,研究 F_m 的粒子梯度流,其速度由一个投影的负梯度给出(Eq. 5)。
  • 从粒子动力学转为对概率测度的 F 的 Wasserstein 梯度流,其由连续性方程控制,速度在 Wasserstein 子微分中(定义 2.4)。
  • 建立一般多粒子极限:mu_{m,t} 收敛到求解极限动力学的 Wasserstein 梯度流 mu_t(定理 2.6)。
  • 在两个同质性情形下分析全局收敛:2-同质性(涵盖 ReLU、lifted 问题)和部分 1-同质性(有界 Phi,例如稀疏解卷积与 sigmoid 网络)情形(定理 3.3 与 3.5)。
  • 将结果应用于稀疏解卷积与具有单隐藏层的神经网络,详述初始化与边界/ Sard型正则性假设(第4节)。

实验结果

研究问题

  • RQ1在何种结构条件(同质性)与初始化模式下,粒子表示的梯度流对提升函数 F 的全局极小值收敛?
  • RQ2在过参数化模型中,有限粒子梯度流动力学是否可在极限中描述为 mean-field 某 Wasserstein 梯度流?
  • RQ3 lifted、同质表示如何应用于实际结构,如稀疏解卷积和带 sigmoid 或 ReLU 激活的单隐藏层神经网络?
  • RQ4初始化分离性质与 Sard 型正则性在确保收敛至全局极小值中扮演何种角色?
  • RQ5经验性的有限 m 粒子系统是否呈现 Wasserstein 框架预测的渐近全局收敛?

主要发现

  • 在大量粒子极限下,离散粒子梯度流收敛到具有合适初始条件的唯一 Wasserstein 梯度流(定理 2.6)。
  • 若 Wasserstein 梯度流在 2-同质性或部分 1-同质性下收敛,极限是 F 的全局最小值(定理 3.3 与 3.5)。
  • 对于对应于神经网络与稀疏解卷积的 lifted 问题,分析规定了使参数空间中某些球体分离以确保全局收敛的初始化模式(定理 3.3、3.5 的假设)。
  • 对单隐藏层网络中的 ReLU 与 sigmoid 激活有明确讨论,并对边界条件与 Sard 型正则性以保证收敛进行了讨论(第 4 节)。
  • 数值实验表明,在合理粒子数量下可以观察到渐近极限,并且粒子梯度流在相较于固定的大粒子网格优化时可能表现更优(第 4.3 节)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。