QUICK REVIEW

[论文解读] In Search of the Real Inductive Bias: On the Role of Implicit Regularization in Deep Learning

Behnam Neyshabur, Ryota Tomioka|arXiv (Cornell University)|Dec 20, 2014

Neural Networks and Applications被引用 134

一句话总结

本文主张，隐式正则化——具体而言，随机梯度下降中的隐式 $β$-范数正则化——才是深度学习中真正的归纳偏置，而非网络规模。通过与矩阵分解的类比，本文表明在大规模过参数化网络中，权重衰减等价于一个具有 $β$-正则化的凸神经网络，从而解释了尽管模型容量巨大，仍能实现泛化的原因。

ABSTRACT

We present experiments demonstrating that some other form of capacity control, different from network size, plays a central role in learning multilayer feed-forward networks. We argue, partially through analogy to matrix factorization, that this is an inductive bias that can help shed light on deep learning.

研究动机与目标

挑战深度学习中网络规模是主要容量控制的假设。
识别在过参数化深度神经网络中实现泛化的真正归纳偏置。
建立SGD中隐式正则化与凸神经网络之间的理论联系。
证明大规模网络中的隐式 $β$-正则化等价于无限宽凸神经网络中的 $β$-正则化。
表明在过参数化网络中使用权重衰减，其解等价于凸形式下的组套索正则化。

提出的方法

通过在不断增加的网络规模下评估训练误差和测试误差，实证研究泛化行为。
通过深度学习与矩阵分解的类比，识别隐式正则化为关键容量控制机制。
利用过参数化网络中权重衰减与 $β$-正则化的等价性，推导出凸神经网络的公式化表达。
推导出在大型网络中最小化权重衰减，等价于对输出层权重施加 $β$-正则化的凸优化问题。
建立两层ReLU网络在无限宽极限下，带有权重衰减的模型等价于具有 $β$-正则化的凸神经网络。
证明当 $H > n$ 时，大型权重衰减网络的解等价于具有组套索正则化的凸神经网络。

实验结果

研究问题

RQ1如果网络规模不是原因，是什么机制使得过参数化深度神经网络能够实现泛化？
RQ2SGD中的隐式正则化与凸模型中的显式正则化之间有何关系？
RQ3深度学习中的归纳偏置能否被描述为一种范数正则化形式，而非网络架构容量？
RQ4是否存在一个等价于训练大规模权重衰减深度网络的凸优化公式？
RQ5输入到隐藏层的权重范数在决定深度网络的归纳偏置中起什么作用？

主要发现

增加网络规模不会在某个点之后进一步改善泛化性能，表明规模并非主要容量控制因素。
在大型网络中，通过SGD实现的隐式 $β$-正则化，其解等价于 $β$-正则化的凸神经网络。
当隐藏单元数 $H$ 超过训练样本数 $n$ 时，该等价性成立，确保解在隐藏单元空间中具有稀疏性。
在大型网络中使用权重衰减，等价于在具有无限多隐藏单元的凸神经网络中对输出层权重施加 $β$-正则化。
具有 $β$-正则化的凸神经网络公式，其泛化性能与训练大规模权重衰减网络相当。
凸神经网络的解始终是离散的，且最多仅有 $n+1$ 个活跃隐藏单元，证实了隐式正则化所诱导的稀疏性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。