Skip to main content
QUICK REVIEW

[论文解读] Steps Toward Deep Kernel Methods from Infinite Neural Networks

Tamir Hazan, Tommi Jaakkola|arXiv (Cornell University)|Aug 20, 2015
Gaussian Processes and Bayesian Inference参考文献 25被引用 55
一句话总结

本文提出从高斯过程导出的随机核函数,用于建模具有多层结构的深度无限神经网络,实现基于核的学习方法,即使在无限容量下也能避免过拟合。通过算法稳定性建立了泛化边界,并展示了如何将非线性激活函数和局部不变性(例如卷积结构)整合到该框架中。

ABSTRACT

Contemporary deep neural networks exhibit impressive results on practical problems. These networks generalize well although their inherent capacity may extend significantly beyond the number of training examples. We analyze this behavior in the context of deep, infinite neural networks. We show that deep infinite layers are naturally aligned with Gaussian processes and kernel methods, and devise stochastic kernels that encode the information of these networks. We show that stability results apply despite the size, offering an explanation for their empirical success.

研究动机与目标

  • 解释尽管参数量巨大,深度神经网络为何仍能实现良好泛化性能。
  • 将无限神经网络理论从单层模型扩展至多层架构。
  • 构建一种基于核的框架,利用高斯过程捕捉深度学习的归纳偏置。
  • 基于算法稳定性,为深度无限网络提供泛化边界。
  • 将非线性激活函数和局部不变性(例如卷积不变性)整合到无限网络框架中。

提出的方法

  • 从高斯过程推导出编码两个无限宽隐藏层信息的随机核函数。
  • 通过在权重空间上使用高斯测度的积分表示,建模第一层的激活函数。
  • 将第二层表示为高斯过程的期望,形成随机核函数。
  • 应用博赫纳定理,获得平移不变协方差函数的无偏估计器,以实现高效核函数近似。
  • 提出一种基于稳定性正则化损失最小化的框架,并提供基于稳定性的泛化边界。
  • 将框架扩展至包含非线性激活函数和类似卷积神经网络的局部不变性。

实验结果

研究问题

  • RQ1如何在保留其表征能力的前提下,使用核方法对深度无限神经网络进行建模?
  • RQ2为何深度无限网络尽管具有不可数的无穷参数,却不会过拟合?
  • RQ3能否利用高斯过程在神经网络的多个无限层之间定义分层结构?
  • RQ4如何将非线性激活函数和局部不变性(例如卷积结构)嵌入到无限网络框架中?
  • RQ5能否基于算法稳定性,为学习深度无限网络推导出泛化保证?

主要发现

  • 所提出的基于高斯过程推导的随机核函数,成功编码了深层网络中两个无限宽隐藏层的信息。
  • 该框架通过算法稳定性解释了深度无限网络的泛化性能,即使在无限容量下依然有效。
  • 该方法基于正则化损失最小化的稳定性,提供了泛化边界,支持了深度网络在实践中的鲁棒性。
  • 非线性激活函数和局部不变性(如卷积神经网络中的特性)可自然地整合进无限网络框架。
  • 利用博赫纳定理推导出无偏核估计器,实现了对平移不变核函数的高效近似。
  • 该框架可扩展至多于两层的结构,但包含非线性激活函数的更深层解析形式仍是开放问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。