QUICK REVIEW

[论文解读] Implicit Regularization in Deep Learning

Behnam Neyshabur|arXiv (Cornell University)|Sep 6, 2017

Sparse and Compressive Sensing Techniques参考文献 57被引用 77

一句话总结

本论文研究优化引发的隐式正则化和基于范数的复杂度量如何解释深度学习中的泛化，并提出不变性与基于路径的归一化/优化技术以使其与神经网络行为保持一致。

ABSTRACT

In an attempt to better understand generalization in deep learning, we study several possible explanations. We show that implicit regularization induced by the optimization method is playing a key role in generalization and success of deep learning models. Motivated by this view, we study how different complexity measures can ensure generalization and explain how optimization algorithms can implicitly regularize complexity measures. We empirically investigate the ability of these measures to explain different observed phenomena in deep learning. We further study the invariances in neural networks, suggest complexity measures and optimization algorithms that have similar invariances to those in neural networks and evaluate them on a number of learning tasks.

研究动机与目标

研究为何过参数化的神经网络在容量较高的情况下仍能实现泛化。
分析优化算法如何促成隐式正则化。
开发与神经网络相关的基于范数的容量测度和 PAC-Bayes 边界。
提出不变性与基于路径的度量/优化方法，以反映神经网络行为。

提出的方法

通过 VC 维、范数、边缘、Lipschitz 性以及 PAC-Bayes 框架研究泛化与容量控制。
证明对范数有界的全连接网络的泛化界，包含深度无关的情况。
将锐度与 PAC-Bayes 泛化通过边距基界框架联系起来。
在不同网络和训练模式下的经验评估复杂性度量与泛化。
引入不变性（如重新缩放）与 Path-norm 作为度量，并将 Path-SGD 发展为关于 Path-norm 的近似最速下降方法。
提出一个将 Path-SGD 和 Batch Normalization 融合的数据相关归一化框架。

实验结果

研究问题

RQ1优化所引发的隐式正则化如何影响深度学习中的泛化？
RQ2哪些复杂度度量（范数、边缘、Lipschitz 性质）可以解释过参数化网络中的泛化？
RQ3PAC-Bayes 边界是否可以通过与锐度和基于边距的分析的联系来阐明泛化？
RQ4在参数重表示下，神经网络存在哪些不变性？它们如何指导优化？
RQ5基于路径的度量和 Path-SGD 能否比标准 SGD 提高泛化？

主要发现

来自优化的隐式正则化在深度学习泛化中起关键作用。
基于范数的容量控制在某些范数下可给出对全连接网络的深度无关的界。
PAC-Bayes 框架与锐度结合可得到与神经网络相关的泛化界。
用 SGD 训练的网络表现出平坦极小值特性，有助于泛化。
Path-norm 不变性捕捉网络中的重新缩放对称性，Path-SGD 在各种基准测试中改善泛化。
一个统一的数据相关归一化框架将 Path-SGD 与 Batch Normalization 连接起来，联系不变性、正则化和优化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。