Skip to main content
QUICK REVIEW

[论文解读] Generalized BackPropagation, Étude De Cas: Orthogonality

Mehrtash Harandi, Basura Fernando|arXiv (Cornell University)|Nov 17, 2016
Face and Expression Recognition参考文献 34被引用 43
一句话总结

本文提出了广义反向传播(gBP),这是对反向传播的扩展,通过在矩阵流形上使用黎曼优化来训练具有结构化权重层的深度网络,特别是正交(Stiefel)层。该方法能够保持如正交性等约束,从而提升泛化性能并显著减少参数量,在细粒度图像分类基准上实现了最先进性能,同时大幅减小模型规模。

ABSTRACT

This paper introduces an extension of the backpropagation algorithm that enables us to have layers with constrained weights in a deep network. In particular, we make use of the Riemannian geometry and optimization techniques on matrix manifolds to step outside of normal practice in training deep networks, equipping the network with structures such as orthogonality or positive definiteness. Based on our development, we make another contribution by introducing the Stiefel layer, a layer with orthogonal weights. Among various applications, Stiefel layers can be used to design orthogonal filter banks, perform dimensionality reduction and feature extraction. We demonstrate the benefits of having orthogonality in deep networks through a broad set of experiments, ranging from unsupervised feature learning to fine-grained image classification.

研究动机与目标

  • 解决标准反向传播在保持网络权重结构约束(如正交性)方面的局限性。
  • 开发一种广义反向传播算法(gBP),支持在矩阵流形上的优化,实现受约束的权重训练。
  • 引入Stiefel层——一种具有正交权重矩阵的全连接层——用于深度网络中。
  • 通过实证评估正交性在无监督特征学习和有监督图像分类任务中对深度网络泛化性能的影响。
  • 通过使用Stiefel层对全连接层进行低秩近似,实现模型简化,减少参数量的同时提升准确率。

提出的方法

  • gBP算法通过引入黎曼优化技术,扩展标准反向传播,以在梯度下降过程中保持权重矩阵的约束。
  • 该方法使用Stiefel流形(定义为正交矩阵的集合)来在全连接层的权重矩阵中强制实现正交性。
  • 梯度被投影到Stiefel流形的切空间上,优化通过黎曼共轭梯度或类似方法进行。
  • Stiefel层被集成到深度网络(如LeNet、AlexNet和VGG)中,替代标准全连接层。
  • 通过SVD方法,利用两个Stiefel层构建全连接层的低秩近似,以保持权重矩阵的能量。
  • 在标准图像分类数据集上使用自适应学习率和微调进行训练,并通过准确率和参数量进行评估。

实验结果

研究问题

  • RQ1反向传播能否被推广以在深度网络权重中保持如正交性等结构约束?
  • RQ2在全连接层中强制实现正交性如何影响图像分类任务中的泛化能力和性能?
  • RQ3Stiefel层能否通过低秩近似实现深度网络简化,同时保持或提升准确率?
  • RQ4Stiefel层的维度如何影响细粒度识别任务中的分类性能?
  • RQ5Stiefel层能否在不进行架构修改的情况下,实现与专用架构相当的性能,用于细粒度图像分类?

主要发现

  • 在STL-10数据集上,Stiefel层将LeNet的准确率从51.4%提升至62.1%。
  • 在CUB-200鸟类数据集上,Stiefel层将AlexNet的准确率从68.4%提升至70.5%。
  • 在Cars-196数据集上,Stiefel层将VGG-VD的准确率从86.0%提升至87.9%。
  • 将VGG-M的fc7层替换为基于低秩Stiefel近似的结构后,参数量从16.7M减少至745K,同时准确率从77.5%提升至82.0%。
  • 在鸟类数据集上,64维的Stiefel层实现了75.6%的准确率,即使在低维下也表现出色。
  • 在Aircrafts数据集上,Stiefel层实现了84.3%的准确率,与专用模型B-CNN(84.1%)相当,且无需架构微调。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。