QUICK REVIEW

[论文解读] Characterizing Implicit Bias in Terms of Optimization Geometry

Suriya Gunasekar, Jason Lee|arXiv (Cornell University)|Feb 22, 2018

Sparse and Compressive Sensing Techniques参考文献 31被引用 47

一句话总结

本文分析了不同优化算法在欠定线性模型中偏向选择全局极小值的方式，将隐式偏差与优化几何（势、范数）在具有唯一有限根的损失和严格单调损失下的表现联系起来。

ABSTRACT

We study the implicit bias of generic optimization methods, such as mirror descent, natural gradient descent, and steepest descent with respect to different potentials and norms, when optimizing underdetermined linear regression or separable linear classification problems. We explore the question of whether the specific global minimum (among the many possible global minima) reached by an algorithm can be characterized in terms of the potential or norm of the optimization geometry, and independently of hyperparameter choices such as step-size and momentum.

研究动机与目标

确定通用优化方法在众多全局极小值中选择时的隐式偏置能否通过优化几何和初始化来表征的程度。
区分具有唯一有限根的损失与严格单调损失在不同几何下对各种算法的极限行为（点/方向）的影响。
在不同几何下为镜像下降、自然梯度下降和最陡下降提供精确的偏置表征。

提出的方法

在经验风险最小化下分析具有唯一有限根的损失（如平方损失）与严格单调损失（如逻辑回归、指数损失）的线性模型。
在不同算法与几何下表征优化轨迹的极限点或极限方向（w_infty 或 w_bar_infty）。
推导镜像下降（及约束变体）的定理，显示极限点为可行集合内的 D_psi 最小化解。
在 psi 为二次型时，证明自然梯度下降在无穷小步长下与镜像下降的极限一致；否则，有限步长可能改变偏置。
建立对严格单调损失而言，梯度下降与最陡下降在方向上收敛到最大边界间隔解，且与初始化和步长（在某些条件下）无关。
研究 AdaGrad 的偏置，即使对单调损失也受初始化和初始 G_t 的影响。

实验结果

研究问题

RQ1是否可以仅由优化几何（势或范数）来表征各种优化算法的隐式偏置，而与步长、动量或随机性无关？
RQ2具有唯一有限根的损失与严格单调损失在不同几何下对优化轨迹的极限行为（点与方向）的影响是什么？
RQ3对于镜像下降、自然梯度下降和最陡下降，在不同势/范数下的极限点或方向是什么？
RQ4无穷小步长分析是否能还原非欧几里得几何下的偏置表征，有限步长如何改变这些偏置？
RQ5自适应方法如 AdaGrad 如何影响不同损失类型下的隐式偏置？

主要发现

对于具有唯一有限根的损失，镜像下降收敛到使初始化处的 Bregman 距离 D_psi 最小的全局极小点（当起始于 psi 最小化点时，也收敛到最小 psi 的全局极小点）。
镜像下降中的对偶空间动量在数据流形约束下保持偏向 psi-最小化器的偏置；原始变量动量可能使极限点偏离该偏置。
自然梯度下降在无穷小步长下具有与镜像下降相同的极限，但在有限步长下偏置通常不同，且可能依赖于步长。
具有一般范数的最陡下降通常不具备简单的、与初始化无关的偏置，即使在无穷小步长时也不如此，与欧几里得情形不同。
对于严格单调损失（如指数/逻辑回归），梯度下降与最陡下降在方向上收敛到所选范数下的最大边界间隔分离器，与初始化无关，在某些条件下对步长也无关。
AdaGrad 的隐式偏置取决于初始化和初始 G_t，即使对单调损失也是如此，因为 G_t 的增长有上限。
矩阵分解参数化（W = UV^T）引入额外的非凸性，与在不同优化方案下的隐式偏置的广泛讨论相关。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。