Skip to main content
QUICK REVIEW

[论文解读] Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normalization

Peihua Li, Jiangtao Xie|arXiv (Cornell University)|Dec 4, 2017
Advanced Neural Network Applications参考文献 24被引用 20
一句话总结

该论文提出 iSQRT-COV,一种通过牛顿-舒尔茨迭代实现矩阵平方根归一化的快速端到端训练方法,用于全局协方差池化网络。通过在前向和反向传播中均用矩阵乘法替代计算成本高昂的特征分解(EIG)或奇异值分解(SVD),该方法实现了高效的GPU并行化,在ImageNet和细粒度基准测试中实现了最先进的性能,相较于基于EIG/SVD的方法具有更快的收敛速度和更高的准确性。

ABSTRACT

Global covariance pooling in convolutional neural networks has achieved impressive improvement over the classical first-order pooling. Recent works have shown matrix square root normalization plays a central role in achieving state-of-the-art performance. However, existing methods depend heavily on eigendecomposition (EIG) or singular value decomposition (SVD), suffering from inefficient training due to limited support of EIG and SVD on GPU. Towards addressing this problem, we propose an iterative matrix square root normalization method for fast end-to-end training of global covariance pooling networks. At the core of our method is a meta-layer designed with loop-embedded directed graph structure. The meta-layer consists of three consecutive nonlinear structured layers, which perform pre-normalization, coupled matrix iteration and post-compensation, respectively. Our method is much faster than EIG or SVD based ones, since it involves only matrix multiplications, suitable for parallel implementation on GPU. Moreover, the proposed network with ResNet architecture can converge in much less epochs, further accelerating network training. On large-scale ImageNet, we achieve competitive performance superior to existing counterparts. By finetuning our models pre-trained on ImageNet, we establish state-of-the-art results on three challenging fine-grained benchmarks. The source code and network models will be available at http://www.peihuali.org/iSQRT-COV

研究动机与目标

  • 解决现有全局协方差池化网络依赖 GPU 效率低下的特征分解(EIG)或奇异值分解(SVD)进行矩阵平方根计算所导致的效率低下问题。
  • 通过将 EIG/SVD 替换为适合并行 GPU 实现的迭代方法,实现协方差池化网络的快速端到端训练。
  • 设计一种带有循环嵌入有向图结构的元层,确保在 ResNet 等深度网络中的收敛性和性能。
  • 利用预训练的 iSQRT-COV 模型在大规模和细粒度视觉识别基准测试中实现最先进性能。
  • 证明基于迭代矩阵平方根归一化的二阶池化方法可超越一阶池化及现有二阶方法。

提出的方法

  • 该方法引入一种元层,其具有循环嵌入的有向图结构,按顺序执行预归一化、耦合牛顿-舒尔茨迭代和后补偿操作。
  • 通过弗罗贝尼乌斯范数或迹进行预归一化,确保牛顿-舒尔茨迭代在矩阵平方根计算中的收敛性。
  • 牛顿-舒尔茨迭代在前向和反向传播中均被使用,梯度通过矩阵反向传播理论推导得出。
  • 在迭代后应用后补偿,以保持表示质量并提升在 ResNet 等深度架构中的最终性能。
  • 整个过程仅依赖矩阵乘法,使其在 GPU 硬件上高度可并行化且高效。
  • 该方法被集成到基于 ResNet 的网络中,支持大规模(ImageNet)和小规模(细粒度)训练。

实验结果

研究问题

  • RQ1通过牛顿-舒尔茨迭代实现的迭代矩阵平方根归一化是否可以替代全局协方差池化网络中的 EIG/SVD,以实现更快的、原生 GPU 训练?
  • RQ2所提出的带有预归一化和后补偿的元层是否能确保在 ResNet 等深度网络中的收敛性和高性能?
  • RQ3iSQRT-COV 是否能在大规模 ImageNet 和细粒度基准测试中实现最先进性能,且显著快于基于 EIG/SVD 的方法?
  • RQ4在准确率和表示维度方面,iSQRT-COV 与现有二阶池化方法(如 KP、CBP 和 G2-DeNet)相比表现如何?
  • RQ5在细粒度视觉分类的迁移学习中,iSQRT-COV 中使用二阶统计量在多大程度上优于一阶池化?

主要发现

  • iSQRT-COV 在 Birds、Aircrafts 和 Cars 细粒度基准测试中实现了最先进准确率,超越了所有先前方法,包括 KP、CBP 和 G2-DeNet。
  • 使用 ResNet-50 时,iSQRT-COV(8K)在 Birds、Aircrafts 和 Cars 上分别达到 87.3%、89.5% 和 91.7% 的准确率,分别超越 KP(14K)2.6%、3.8% 和 0.6%。
  • 使用 ResNet-101 时,iSQRT-COV 在 Birds、Aircrafts 和 Cars 上分别达到 88.7%、91.4% 和 93.3% 的准确率,在所有三个细粒度数据集上均创下新的最先进记录。
  • 在 ImageNet 上,iSQRT-COV 搭配 ResNet-50 实现了具有竞争力的 top-1 准确率,展现出强大的泛化能力和可迁移性。
  • 由于采用了高效的 GPU 可并行矩阵乘法,该方法收敛所需轮次显著少于基于 EIG/SVD 的方法。
  • 即使压缩至 2K 维,iSQRT-COV 仍保持 23.73% 的错误率,优于使用全局平均池化的标准 ResNet-50。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。