[论文解读] Neural Networks are Convex Regularizers: Exact Polynomial-time Convex Optimization Formulations for Two-layer Networks
本文首次提出了针对带权重衰减的两层ReLU神经网络训练问题的精确、多项式时间凸优化公式,表明此类非凸问题等价于有限维空间中的块$β$-范数正则化凸规划。关键贡献在于提出了一种新颖的对偶理论,建立了强对偶性,使得可通过凸求解器实现全局优化,并揭示了ReLU网络通过$β$-范数和$Ø∞$-范数正则化发挥凸正则化作用。
We develop exact representations of training two-layer neural networks with rectified linear units (ReLUs) in terms of a single convex program with number of variables polynomial in the number of training samples and the number of hidden neurons. Our theory utilizes semi-infinite duality and minimum norm regularization. We show that ReLU networks trained with standard weight decay are equivalent to block $\\ell_1$ penalized convex models. Moreover, we show that certain standard convolutional linear networks are equivalent semi-definite programs which can be simplified to $\\ell_1$ regularized linear models in a polynomial sized discrete Fourier feature space.
研究动机与目标
- 开发一种有限维、多项式时间的凸规划,精确求解两层ReLU网络的非凸训练问题。
- 建立非凸ReLU网络训练问题与凸半无限规划之间的强对偶性,实现全局优化。
- 表征ReLU网络与权重衰减所诱导的隐式正则化,揭示其在高维特征空间中等价于块$β$-范数和$Ø∞$-范数正则化。
- 将理论扩展至卷积线性网络,表明其在离散傅里叶特征空间中等价于$β$-正则化模型。
提出的方法
- 利用半无限对偶性和最小范数正则化,推导非凸ReLU网络训练目标的凸对偶公式。
- 用在归一化隐藏单元权重和输出权重上的等价$β$-惩罚凸规划,替代原始非凸优化问题。
- 通过证明当隐藏神经元数$m$满足$m \geq m^*$(其中$m^* \leq n$)时,对偶间隙消失,建立强对偶性。
- 表明对偶问题是一个凸半无限规划,其约束由$\mathbb{R}^d$中所有单位向量索引,可通过修正椭球集的极集进行重构。
- 证明使用权重衰减训练的ReLU网络在由数据矩阵$X$导出的有限维特征空间中,数学上等价于块$β$-范数正则化模型。
- 通过变量替换和符号模式采样,将框架扩展至卷积线性网络,表明其在离散傅里叶特征空间中等价于$β$-正则化模型。
实验结果
研究问题
- RQ1两层ReLU网络的非凸训练问题能否被精确重构为变量和约束数量为多项式级别的凸优化问题?
- RQ2ReLU网络与权重衰减所诱导的隐式正则化是什么?其与已知凸正则化器有何关系?
- RQ3非凸ReLU网络目标与其凸对偶公式之间是否成立强对偶性?
- RQ4该理论能否扩展至卷积网络等结构化架构?若可,将出现何种凸重构形式?
- RQ5所提出的凸公式与SGD等标准训练启发式方法相比,在泛化能力和目标值方面表现如何?
主要发现
- 带权重衰减的两层ReLU网络训练问题等价于一个具有$n$个变量和无限多个约束的凸半无限规划,可通过重构转化为变量和约束数量为多项式的有限维凸规划。
- 只要隐藏神经元数$m$满足$m \geq m^*$(其中$m^* \leq n$),非凸ReLU网络目标与其凸对偶之间即成立强对偶性,确保全局最优性。
- 使用权重衰减训练的ReLU网络在由数据矩阵$X$导出的有限维特征空间中,数学上等价于块$β$-范数正则化模型,其中特征空间对应于所有可能的输入方向的修正线性组合。
- 证明对偶问题等价于在修正椭球集的极集上最小化一个凸函数,可通过符号模式采样实现高效计算。
- 对于卷积线性网络,凸重构退化为离散傅里叶特征空间中的$β$-正则化线性模型,特征数量在$n$和$d$上为多项式关系。
- 实验结果表明,所提出的凸规划(L1-Convex)在目标值上低于SGD及其启发式变体,并在测试准确率上更高,且所有SGD实现均收敛至与凸规划相同的解。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。