QUICK REVIEW

[论文解读] Gradient Descent Maximizes the Margin of Homogeneous Neural Networks

Kaifeng Lyu, Jian Li|arXiv (Cornell University)|Jun 13, 2019

Stochastic Gradient Optimization Techniques参考文献 70被引用 57

一句话总结

本文表明，在同态神经网络上的梯度下降/梯度流隐式地最大化归一化间隔，存在一个单调的平滑间隔收敛到最大间隔问题的KKT点，并在实验中给出渐近损失与权重增长速率的证据。

ABSTRACT

In this paper, we study the implicit regularization of the gradient descent algorithm in homogeneous neural networks, including fully-connected and convolutional neural networks with ReLU or LeakyReLU activations. In particular, we study the gradient descent or gradient flow (i.e., gradient descent with infinitesimal step size) optimizing the logistic loss or cross-entropy loss of any homogeneous model (possibly non-smooth), and show that if the training loss decreases below a certain threshold, then we can define a smoothed version of the normalized margin which increases over time. We also formulate a natural constrained optimization problem related to margin maximization, and prove that both the normalized margin and its smoothed version converge to the objective value at a KKT point of the optimization problem. Our results generalize the previous results for logistic regression with one-layer or multi-layer linear networks, and provide more quantitative convergence results with weaker assumptions than previous results for homogeneous smooth neural networks. We conduct several experiments to justify our theoretical finding on MNIST and CIFAR-10 datasets. Finally, as margin is closely related to robustness, we discuss potential benefits of training longer for improving the robustness of the model.

研究动机与目标

研究同态神经网络（ReLU/LeakyReLU，是否带偏置）的梯度下降/梯度流的隐式正则化。
证明在自然假设下，平滑的归一化边界随时间增加并收敛到最大边界的目标。
描述收敛性质、损失衰减速率、权重增长以及与基于边界的最优性（KKT 点）的关系。
在 MNIST 和 CIFAR-10 上提供实证验证，并讨论更长训练时间对鲁棒性的影响。

提出的方法

在指数型损失（包括交叉熵/逻辑损失）下分析同态网络的梯度流和梯度下降。
通过 q_min(n)/||θ||^L 定义并研究归一化边界 {b3}，以及使用 LogSumExp 的平滑版本 tilde{b3}。
证明 tilde{b3}（以及梯度下降的 hat{b3}）在训练时间 t0 之后是非降的，且 L(θ(t)) → 0，同时 ||θ(t)|| 逐渐增长至无界。
证明归一化参数方向的极限点与一个边界最大化问题的 KKT 点对齐，指示梯度动力学的隐式边界最大化。
推导损失衰减和权重增长的严格渐近速率，并将其与在极限点处的 NTK 核的最大边界 SVM 联系起来。
将结果扩展到更广泛的损失函数类别（对数损失、交叉熵、指数尾部）及多同态网络。

实验结果

研究问题

RQ1梯度下降/流在同态网络上是否会将解偏向最大边界方向？
RQ2是否可以证明平滑化、归一化的边界是非降的，并且它是否收敛到一个边界最优性条件？
RQ3在这些动力学下，训练损失和权重范数的渐近行为是什么，极限点在多大程度上满足一个边界最大化问题的 KKT 条件？
RQ4这些理论结果如何扩展到更广的损失函数和多同态体系结构？
RQ5实证实验是否支持边界最大化行为及更长训练时间带来的潜在鲁棒性收益？

主要发现

归一化边界并非全局单调，但存在一个平滑版本，在时间 t0 之后是非降的，并且随着训练的进行收敛到真正的归一化边界。
在所述假设下，训练损失趋近于零，权重范数无限增长，平滑边界对实际边界提供紧密近似。
参数方向的任何极限点都与一个边界最大化问题的 KKT 点对齐，指示梯度动力学的隐式边界最大化。
该方法扩展到具有指数尾的广义损失类（包括逻辑回归和交叉熵）以及多同态网络，保留边界最大化行为。
在 MNIST 和 CIFAR-10 上的实证结果显示，较长的训练可以增加归一化边界并提升 L2 鲁棒性，尤其是在基于损失的学习率调度下。
理论结果将线性模型的前期工作推广到深层同态网络，并给出损失和权重增长的显式收敛速率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。