Skip to main content
QUICK REVIEW

[论文解读] Convex Duality of Deep Neural Networks

Tolga Ergen, Mert Pilancı|arXiv (Cornell University)|Feb 22, 2020
Sparse and Compressive Sensing Techniques参考文献 6被引用 8
一句话总结

本文提出了一种针对范数正则化深度神经网络的凸对偶框架,证明了线性网络和ReLU网络中最优权重矩阵的秩为一,并与前序层对齐。该研究建立了深度网络的强对偶性,并表明正则化的ReLU网络对一维数据实现样条插值,扩展了已知的两层网络结果。

ABSTRACT

We study regularized deep neural networks and introduce an analytic framework to characterize the structure of the hidden layers. We show that a set of optimal hidden layer weight matrices for a norm regularized deep neural network training problem can be explicitly found as the extreme points of a convex set. For two-layer linear networks, we first formulate a convex dual program and prove that strong duality holds. We then extend our derivations to prove that strong duality also holds for certain deep networks. In particular, for linear deep networks, we show that each optimal layer weight matrix is rank-one and aligns with the previous layers when the network output is scalar. We also extend our analysis to the vector outputs and other convex loss functions. More importantly, we show that the same characterization can also be applied to deep ReLU networks with rank-one inputs, where we prove that strong duality still holds and optimal layer weight matrices are rank-one for scalar output networks. As a corollary, we prove that norm regularized deep ReLU networks yield spline interpolation for one-dimensional datasets which was previously known only for two-layer networks. We then verify our theoretical results via several numerical experiments.

研究动机与目标

  • 开发一种分析框架,用于表征范数正则化深度神经网络中隐藏层的结构。
  • 证明在范数正则化下,深度线性网络的强对偶性成立,并将其扩展至输入为秩一的ReLU网络。
  • 将最优权重矩阵表征为凸集的极值点。
  • 建立范数正则化的ReLU网络通过对一维数据进行样条插值,扩展了已知的两层网络结果。

提出的方法

  • 为两层线性网络构建凸对偶规划,并证明强对偶性成立。
  • 通过分析最优权重矩阵的结构,将对偶框架扩展至深度线性网络。
  • 证明在输出为标量时,深度线性网络中每个最优权重矩阵均为秩一,并与先前各层的乘积对齐。
  • 分析向量输出及其他凸损失函数,以推广对偶性结果。
  • 将分析扩展至输入为秩一的ReLU网络,证明强对偶性依然成立。
  • 利用凸对偶性证明,范数正则化的ReLU网络对一维数据集实现样条插值。

实验结果

研究问题

  • RQ1在范数正则化下,是否可以为深度线性网络建立强对偶性?
  • RQ2深度线性网络中的最优权重矩阵是否为秩一且与前序层对齐?
  • RQ3凸对偶性框架是否可扩展至输入为秩一的ReLU网络?
  • RQ4范数正则化的ReLU网络在输出为标量时,是否对一维数据实现样条插值?
  • RQ5该对偶框架能否推广至向量输出及其他凸损失函数?

主要发现

  • 范数正则化的两层线性网络中强对偶性成立,实现了精确的对偶优化。
  • 在输出为标量的深度线性网络中,每个最优权重矩阵均为秩一,并与先前各层乘积对齐。
  • 对于输出为向量的深度线性网络,对偶性框架可推广至一般凸损失函数。
  • 输入为秩一的范数正则化ReLU网络实现了强对偶性,且在标量输出下最优权重仍保持为秩一。
  • 相同的对偶框架证明了范数正则化的ReLU网络通过对一维数据集实现样条插值,扩展了已知的两层网络结果。
  • 数值实验验证了关于权重矩阵结构和对偶间隙的理论预测。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。