Skip to main content
QUICK REVIEW

[论文解读] Lexicographic and Depth-Sensitive Margins in Homogeneous and Non-Homogeneous Deep Models

Mor Shpigel Nacson, Suriya Gunasekar|arXiv (Cornell University)|May 17, 2019
Stochastic Gradient Optimization Techniques参考文献 20被引用 25
一句话总结

本文通过分析约束路径、正则化路径和优化路径,将最大间隔最大化理论扩展至同质与非同质深度模型。证明了对于同质模型,约束路径收敛至字典序最大间隔解;而对于非同质集成模型,解会舍弃浅层子模型,揭示了过参数化网络中深度敏感的归纳偏置。

ABSTRACT

With an eye toward understanding complexity control in deep learning, we study how infinitesimal regularization or gradient descent optimization lead to margin maximizing solutions in both homogeneous and non-homogeneous models, extending previous work that focused on infinitesimal regularization only in homogeneous models. To this end we study the limit of loss minimization with a diverging norm constraint (the "constrained path"), relate it to the limit of a "margin path" and characterize the resulting solution. For non-homogeneous ensemble models, which output is a sum of homogeneous sub-models, we show that this solution discards the shallowest sub-models if they are unnecessary. For homogeneous models, we show convergence to a "lexicographic max-margin solution", and provide conditions under which max-margin solutions are also attained as the limit of unconstrained gradient descent.

研究动机与目标

  • 理解优化与正则化在过参数化深度神经网络中引入的归纳偏置。
  • 将先前关于线性与同质模型最大间隔解的研究扩展至非同质模型,特别是集成架构。
  • 表征约束路径(发散范数约束)的极限及其在同质与非同质模型中与最大间隔最大化的关系。
  • 研究无约束梯度下降在同质模型中是否收敛至最大间隔解,以及在何种条件下收敛。
  • 引入并形式化字典序最大间隔解的概念,作为标准最大间隔分类器的改进。

提出的方法

  • 将约束路径(在发散范数约束下优化)作为无穷小正则化的代理。
  • 通过迭代最大化第k个最小间隔,引入字典序最大间隔集合,以改进标准最大间隔解。
  • 证明对于α-正同质模型,约束路径的极限位于字典序最大间隔集合内。
  • 将该框架应用于由同质子模型之和构成的非同质模型(如神经网络集成)。
  • 证明在这些集成中,若浅层子模型对拟合数据非必要,则约束路径解会舍弃最浅的子模型。
  • 建立约束路径、间隔路径与无约束优化路径之间的联系,表明其收敛至约束路径的驻点。

实验结果

研究问题

  • RQ1在非同质深度模型中,约束路径(发散范数约束)如何与最大间隔最大化相关联?
  • RQ2无约束梯度下降在同质深度模型中诱导出何种归纳偏置,是否导致最大间隔解?
  • RQ3最大间隔概念能否超越首个最小间隔进行细化?若能,这种细化如何影响模型泛化性能?
  • RQ4由同质子模型组成的集成模型在约束优化下表现如何,是否更偏好深层或浅层组件?
  • RQ5在何种条件下,优化路径收敛至与约束路径或间隔路径相同的解?

主要发现

  • 对于α-正同质模型,约束路径的极限包含于字典序最大间隔集合中,意味着解依次最大化最小间隔、第二小间隔,依此类推。
  • 在由同质子模型之和构成的非同质模型中,若浅层子模型对拟合数据非必要,则约束路径解会舍弃最浅的子模型。
  • 约束路径收敛至最大间隔解,且在某些情况下,参数路径本身也收敛至最大间隔解集合。
  • 优化路径(无约束梯度下降)收敛至约束路径的驻点,表明优化动力学与最大间隔最大化之间存在强关联。
  • 字典序最大间隔集合为最优解提供了超越标准最大间隔分类器的精细化表征,尤其在同质模型中表现显著。
  • 结果表明,深度与参数化影响过参数化模型中的归纳偏置,且在集成架构中更偏好深层组件。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。