Skip to main content
QUICK REVIEW

[论文解读] In Search of the Real Inductive Bias: On the Role of Implicit Regularization in Deep Learning

Behnam Neyshabur, Ryota Tomioka|arXiv (Cornell University)|Dec 20, 2014
Neural Networks and Applications被引用 134
一句话总结

本文主张,隐式正则化——具体而言,随机梯度下降中的隐式 $β$-范数正则化——才是深度学习中真正的归纳偏置,而非网络规模。通过与矩阵分解的类比,本文表明在大规模过参数化网络中,权重衰减等价于一个具有 $β$-正则化的凸神经网络,从而解释了尽管模型容量巨大,仍能实现泛化的原因。

ABSTRACT

We present experiments demonstrating that some other form of capacity control, different from network size, plays a central role in learning multilayer feed-forward networks. We argue, partially through analogy to matrix factorization, that this is an inductive bias that can help shed light on deep learning.

研究动机与目标

  • 挑战深度学习中网络规模是主要容量控制的假设。
  • 识别在过参数化深度神经网络中实现泛化的真正归纳偏置。
  • 建立SGD中隐式正则化与凸神经网络之间的理论联系。
  • 证明大规模网络中的隐式 $β$-正则化等价于无限宽凸神经网络中的 $β$-正则化。
  • 表明在过参数化网络中使用权重衰减,其解等价于凸形式下的组套索正则化。

提出的方法

  • 通过在不断增加的网络规模下评估训练误差和测试误差,实证研究泛化行为。
  • 通过深度学习与矩阵分解的类比,识别隐式正则化为关键容量控制机制。
  • 利用过参数化网络中权重衰减与 $β$-正则化的等价性,推导出凸神经网络的公式化表达。
  • 推导出在大型网络中最小化权重衰减,等价于对输出层权重施加 $β$-正则化的凸优化问题。
  • 建立两层ReLU网络在无限宽极限下,带有权重衰减的模型等价于具有 $β$-正则化的凸神经网络。
  • 证明当 $H > n$ 时,大型权重衰减网络的解等价于具有组套索正则化的凸神经网络。

实验结果

研究问题

  • RQ1如果网络规模不是原因,是什么机制使得过参数化深度神经网络能够实现泛化?
  • RQ2SGD中的隐式正则化与凸模型中的显式正则化之间有何关系?
  • RQ3深度学习中的归纳偏置能否被描述为一种范数正则化形式,而非网络架构容量?
  • RQ4是否存在一个等价于训练大规模权重衰减深度网络的凸优化公式?
  • RQ5输入到隐藏层的权重范数在决定深度网络的归纳偏置中起什么作用?

主要发现

  • 增加网络规模不会在某个点之后进一步改善泛化性能,表明规模并非主要容量控制因素。
  • 在大型网络中,通过SGD实现的隐式 $β$-正则化,其解等价于 $β$-正则化的凸神经网络。
  • 当隐藏单元数 $H$ 超过训练样本数 $n$ 时,该等价性成立,确保解在隐藏单元空间中具有稀疏性。
  • 在大型网络中使用权重衰减,等价于在具有无限多隐藏单元的凸神经网络中对输出层权重施加 $β$-正则化。
  • 具有 $β$-正则化的凸神经网络公式,其泛化性能与训练大规模权重衰减网络相当。
  • 凸神经网络的解始终是离散的,且最多仅有 $n+1$ 个活跃隐藏单元,证实了隐式正则化所诱导的稀疏性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。