[论文解读] Deep Hyperspherical Learning
SphereNet 在超球面上用 SphereConv 取代内积卷积,并使用角度 GA-Softmax 损失函数,提升训练稳定性、收敛速度和网络精度。
Convolution as inner product has been the founding basis of convolutional neural networks (CNNs) and the key to end-to-end visual representation learning. Benefiting from deeper architectures, recent CNNs have demonstrated increasingly strong representation abilities. Despite such improvement, the increased depth and larger parameter space have also led to challenges in properly training a network. In light of such challenges, we propose hyperspherical convolution (SphereConv), a novel learning framework that gives angular representations on hyperspheres. We introduce SphereNet, deep hyperspherical convolution networks that are distinct from conventional inner product based convolutional networks. In particular, SphereNet adopts SphereConv as its basic convolution operator and is supervised by generalized angular softmax loss - a natural loss formulation under SphereConv. We show that SphereNet can effectively encode discriminative representation and alleviate training difficulty, leading to easier optimization, faster convergence and comparable (even better) classification accuracy over convolutional counterparts. We also provide some theoretical insights for the advantages of learning on hyperspheres. In addition, we introduce the learnable SphereConv, i.e., a natural improvement over prefixed SphereConv, and SphereNorm, i.e., hyperspherical learning as a normalization method. Experiments have verified our conclusions.
研究动机与目标
- 解决由深度和庞大参数空间导致的深度 CNN 的训练困难。
- 提出 hyperspherical 卷积(SphereConv)和角度监督,以改进优化和泛化。
- 开发 SphereNet 的变体,包括可学习的 SphereConv 和 SphereNorm。
- 在 CIFAR 以及像 ImageNet 这样的大规模数据集上展示更快的收敛和具竞争力/领先的准确率。
提出的方法
- 将 SphereConv 定义为单位超球面上的余弦式角度相似性,具有三种实例:线性、余弦和 sigmoid(以及一个可学习变体)。
- 用 SphereConv 替代标准卷积,并用广义角度 Softmax(GA-Softmax)损失进行监督(包含 W-Softmax 作为特例)。
- 提供理论见解,显示在球面上优化的条件数得到改善(并避免权重范数的敏感性)。
- 将 SphereConv 扩展到全连接层和现有架构(如 VGG、GoogLeNet、ResNet),以 SphereNorm 作为互补的归一化。
- 讨论训练策略、SphereConv 的反向传播,以及通过近似正交的核实现的正则化。
实验结果
研究问题
- RQ1在深度网络上在超球面上的学习是否能改善条件数和优化速度?
- RQ2SphereConv 和角度损失是否在不同架构和数据集上始终优于传统的内积卷积?
- RQ3不同的 SphereConv 变体(线性、余弦、sigmoid)和 GA-Softmax 损失在准确度和训练稳定性方面的比较如何?
- RQ4SphereConv 是否能有效作为归一化(SphereNorm),并启用可学习参数以获得进一步提升?
主要发现
- SphereConv 运算符在不同架构和损失选择下始终优于原始卷积。
- 在测试的变体中,带有合适参数的 Sigmoid SphereConv 常常获得最佳准确度。
- SphereNet 实现更快的收敛和更高的稳定性,使得无需残差连接即可训练非常深的普通网络。
- 可学习的 SphereConv 进一步提升了性能,表明逐层自适应角度参数是有益的。
- SphereNorm 是对 BatchNorm 的补充,二者结合时可以提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。