QUICK REVIEW

[论文解读] Porcupine Neural Networks: (Almost) All Local Optima are Global

Soheil Feizi, Hamid Javadi|arXiv (Cornell University)|Oct 5, 2017

Neural Networks and Applications参考文献 33被引用 26

一句话总结

本文提出了刺猬神经网络（Porcupine Neural Networks, PNNs），这是一种受约束的两层神经网络架构，其中隐藏单元的权重被限制在权重空间中的固定直线上。作者证明，在高斯输入和ReLU激活条件下，PNN的大多数局部最优解均为全局最优解，并且展示了PNN能够以多项式数量的神经元近似无约束网络，为基于梯度的训练成功提供了理论依据。

ABSTRACT

Neural networks have been used prominently in several machine learning and statistics applications. In general, the underlying optimization of neural networks is non-convex which makes their performance analysis challenging. In this paper, we take a novel approach to this problem by asking whether one can constrain neural network weights to make its optimization landscape have good theoretical properties while at the same time, be a good approximation for the unconstrained one. For two-layer neural networks, we provide affirmative answers to these questions by introducing Porcupine Neural Networks (PNNs) whose weight vectors are constrained to lie over a finite set of lines. We show that most local optima of PNN optimizations are global while we have a characterization of regions where bad local optimizers may exist. Moreover, our theoretical and empirical results suggest that an unconstrained neural network can be approximated using a polynomially-large PNN.

研究动机与目标

通过将权重约束以改善理论分析，解决神经网络中非凸优化的挑战。
探究受约束的神经网络是否能在简化优化景观的同时保持表达能力。
证明在特定条件下，所提出的PNN架构中大多数局部最优解均为全局最优解。
建立无约束两层ReLU网络可由PNN以多项式数量的神经元近似。

提出的方法

提出刺猬神经网络（PNNs），其中每个隐藏单元的输入权重向量被约束在权重空间中的一条固定直线上。
分析具有联合高斯输入和ReLU激活的两层PNN的总体风险景观。
利用限制在对偶凸锥上的高斯变量协方差导出的核函数，刻画可能存在不良局部最优解的区域。
使用角度网络近似和几何论证，界定无约束函数与PNN函数之间的近似误差。
通过核矩阵广义施尔曼补的谱范数推导近似误差的上界。
分析当输入维度和神经元数量以相同速率增长时，随机PNN在高维渐近情况下的近似误差行为。

实验结果

研究问题

RQ1能否设计一种受约束的神经网络架构，使得其大多数局部最优解为全局最优解？
RQ2在何种条件下，PNN的优化景观可避免不良局部最优解？
RQ3能否以随输入维度多项式增长的神经元数量，近似无约束的两层ReLU神经网络？
RQ4无约束网络与其PNN对应物之间的近似误差的理论边界是什么？
RQ5当输入维度和神经元数量增加时，近似误差的渐近行为如何？

主要发现

在假设的建模条件下，PNN的大多数局部最优解为全局最优解，不良局部最优解被限制在特定参数区域。
随着PNN神经元数量的增加，无约束两层ReLU网络与PNN之间的近似误差减小，实证结果表明即使在中等规模的PNN下误差也较小。
近似误差由核矩阵广义施尔曼补的谱范数有界，为泛化提供了理论依据。
在输入维度和隐藏神经元数量以相同速率增长的高维情形下，近似误差的渐近极限被显式计算。
朴素的极小化极大近似边界需要指数数量的PNN神经元，而PNN框架实现了多项式量级的缩放，显示出显著优势。
数值结果证实，具有多项式数量神经元的PNN可在中等输入维度下实现低均方误差，有效近似无约束网络。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。