Skip to main content
QUICK REVIEW

[论文解读] Optimizing Neural Networks in the Equivalent Class Space.

Qi Meng, Wei Chen|arXiv (Cornell University)|Feb 11, 2018
Advanced Neural Network Applications参考文献 16被引用 2
一句话总结

本文提出等价类优化(EC-Opt),一种新颖的方法,通过在紧凑的等价类空间中重参数化神经网络优化,消除激活函数和池化层的缩放不变性特性带来的冗余。通过在此低维空间中重构梯度,计算开销极小,EC-Opt有效减少了虚假临界点,并在全连接网络与卷积网络中显著提升了模型准确率,优于标准SGD。

ABSTRACT

It has been widely observed that many activation functions and pooling methods of neural network models have (positive-) rescaling-invariant property, including ReLU, PReLU, max-pooling, and average pooling, which makes fully-connected neural networks (FNNs) and convolutional neural networks (CNNs) invariant to (positive) rescaling operation across layers. This may cause unneglectable problems with their optimization: (1) different NN models could be equivalent, but their gradients can be very different from each other; (2) it can be proven that the loss functions may have many spurious critical points in the redundant weight space. To tackle these problems, in this paper, we first characterize the rescaling-invariant properties of NN models using equivalent classes and prove that the dimension of the equivalent class space is significantly smaller than the dimension of the original weight space. Then we represent the loss function in the compact equivalent class space and develop novel algorithms that conduct optimization of the NN models directly in the equivalent class space. We call these algorithms Equivalent Class Optimization (abbreviated as EC-Opt) algorithms. Moreover, we design efficient tricks to compute the gradients in the equivalent class, which almost have no extra computational complexity as compared to standard back-propagation (BP). We conducted experimental study to demonstrate the effectiveness of our proposed new optimization algorithms. In particular, we show that by using the idea of EC-Opt, we can significantly improve the accuracy of the learned model (for both FNN and CNN), as compared to using conventional stochastic gradient descent algorithms.

研究动机与目标

  • 解决激活函数和池化层的缩放不变性特性引起的优化不稳定性问题。
  • 利用等价类表征由于这些不变性导致的权重空间内在冗余。
  • 开发一种直接在紧凑等价类空间中运行的新优化框架。
  • 在保持与标准反向传播相当的计算效率的同时,提升训练收敛性与准确率。
  • 通过实证验证 EC-Opt 在全连接与卷积神经网络中相较于传统SGD的优越性。

提出的方法

  • 本文通过识别在正缩放下保持网络输出不变的权重变换,定义等价类,形式化了ReLU、PReLU、最大池化和平均池化的不变性。
  • 证明了等价类空间的维度远小于原始权重空间,从而显著降低了优化中的冗余。
  • 将损失函数重新表达为等价类参数的形式,实现在该低维空间中的直接优化。
  • 设计了新颖的梯度计算技术,以几乎不增加额外计算成本的方式,在等价类空间中计算梯度。
  • EC-Opt 算法直接在等价类空间中执行随机优化,避免了在原始权重空间中的冗余更新。
  • 引入高效的参数化与投影机制,在保持模型等价性的同时,实现稳定且准确的训练。

实验结果

研究问题

  • RQ1如何从等价权重类的角度,形式化表征常见神经网络组件的缩放不变性特性?
  • RQ2在全连接与卷积网络中,等价类空间的维度相对于原始权重空间的维度如何?
  • RQ3在等价类空间中进行优化是否能减少虚假临界点并改善训练动力学?
  • RQ4EC-Opt 与标准SGD相比,在收敛速度与最终模型准确率方面表现如何?
  • RQ5与标准反向传播相比,计算等价类空间中梯度的计算开销如何?

主要发现

  • 等价类空间的维度远低于原始权重空间,证实了优化冗余的显著性。
  • EC-Opt 通过消除冗余自由度,减少了损失曲面中的虚假临界点数量。
  • 所提出的等价类空间梯度计算方式,与标准反向传播相比,几乎不增加额外计算成本。
  • EC-Opt 在全连接与卷积神经网络中均实现了高于标准SGD的模型准确率。
  • 该准确率提升在多个基准任务中保持一致,证明了该方法的泛化能力。
  • 该方法与标准深度学习架构兼容,无需修改网络结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。