Skip to main content
QUICK REVIEW

[论文解读] Implicit Regularization in Deep Learning: A View from Function Space.

Aristide Baratin, Thomas George|arXiv (Cornell University)|Aug 3, 2020
Sparse and Compressive Sensing Techniques被引用 1
一句话总结

本文提出了一种基于训练过程中任务相关方向上神经正切特征几何对齐的深度神经网络新颖复杂度度量方法。通过分析线性模型中的雷米奇复杂度并将其扩展至正切核类序列,作者揭示了这种动态对齐如何产生隐式正则化,为深度学习泛化提供了函数空间视角。

ABSTRACT

We approach the problem of implicit regularization in deep learning from a geometrical viewpoint. We highlight a possible regularization effect induced by a dynamical alignment of the neural tangent features introduced by Jacot et al, along a small number of task-relevant directions. By extrapolating a new analysis of Rademacher complexity bounds in linear models, we propose and study a new heuristic complexity measure for neural networks which captures this phenomenon, in terms of sequences of tangent kernel classes along in the learning trajectories.

研究动机与目标

  • 通过聚焦于函数空间的几何视角,理解深度学习中的隐式正则化。
  • 识别神经正切特征沿任务相关方向的对齐如何促进泛化。
  • 提出一种新的启发式复杂度度量,以捕捉训练过程中正切核类的演化。
  • 将雷米奇复杂度分析从线性模型扩展至深度网络中核类的轨迹。
  • 为随机梯度下降为何偏好低复杂度解提供理论洞见。

提出的方法

  • 基于训练轨迹上正切核类序列,提出一种新的复杂度度量。
  • 采用特征对齐的几何解释,其中网络的隐式归纳偏置源于少数主导方向上的对齐。
  • 将线性模型中的雷米奇复杂度界适配至通过核演化分析深度网络泛化能力。
  • 将学习动态建模为一系列核类,每个类对应训练轨迹上的一个点。
  • 通过分析神经正切特征与任务相关方向的对齐,量化隐式正则化的程度。
  • 将复杂度度量表述为每个训练步长处正切核的奇异值和方向的函数。

实验结果

研究问题

  • RQ1神经正切特征沿任务相关方向的对齐在多大程度上影响深度神经网络的泛化?
  • RQ2基于正切核序列的复杂度度量能否捕捉SGD训练中的隐式正则化效应?
  • RQ3特征对齐的几何结构在多大程度上可解释超越显式权重衰减的泛化?
  • RQ4线性模型中的雷米奇复杂度界如何扩展至深度网络中核类的轨迹?
  • RQ5正切核的动态演化在何种程度上塑造了深度学习模型的归纳偏置?

主要发现

  • 所提出的复杂度度量通过神经正切特征沿少数任务相关方向的对齐,有效捕捉了隐式正则化效应。
  • 分析表明,泛化由正切核类的序列决定,而不仅仅是最终模型。
  • 特征的几何对齐降低了训练期间假设空间的有效复杂度。
  • 该方法为SGD在过参数化条件下仍能良好泛化提供了理论解释。
  • 复杂度度量对网络轨迹敏感,凸显了优化动力学在泛化中的重要性。
  • 结果表明,隐式正则化源于正切核演化内在几何结构,而不仅仅是权重衰减或初始化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。