QUICK REVIEW

[论文解读] Large-Margin Softmax Loss for Convolutional Neural Networks

Weiyang Liu, Yandong Wen|arXiv (Cornell University)|Dec 7, 2016

Advanced Neural Network Applications参考文献 29被引用 432

一句话总结

本文提出 Large-Margin Softmax (L-Softmax) 损失，是 Softmax 的角度边距版本，用于学习更有辨别力的 CNN 特征以用于分类和验证，在 MNIST、CIFAR 与 LFW 数据集上显示出持续的提升。

ABSTRACT

Cross-entropy loss together with softmax is arguably one of the most common used supervision components in convolutional neural networks (CNNs). Despite its simplicity, popularity and excellent performance, the component does not explicitly encourage discriminative learning of features. In this paper, we propose a generalized large-margin softmax (L-Softmax) loss which explicitly encourages intra-class compactness and inter-class separability between learned features. Moreover, L-Softmax not only can adjust the desired margin but also can avoid overfitting. We also show that the L-Softmax loss can be optimized by typical stochastic gradient descent. Extensive experiments on four benchmark datasets demonstrate that the deeply-learned features with L-softmax loss become more discriminative, hence significantly boosting the performance on a variety of visual classification and verification tasks.

研究动机与目标

阐明在 CNN 中需要超越标准 softmax 的更具辨别力的特征。
提出一种广义的大边距 softmax 损失，在角度空间内实现类内紧凑性和类间可分离性。
证明 L-Softmax 可以使用标准的 SGD 进行优化，并且可以作为 softmax 的即插即用替代方案。
通过大量实验展示在图像分类和人脸验证方面的改进。

提出的方法

将类别得分表示为 f_j = W_j^T x_i，并解释为 f_j = ||W_j|| ||x_i|| cos(theta_j)。
通过将 cos(theta_yi) 替换为编码角度边距 m 的 psi(theta_yi) 来定义边距（ψ(θ) = cos(mθ) 对于 0 ≤ θ ≤ π/m，在此之后单调扩展）。
使用可处理的 ψ(θ) 公式以实现前向/反向传播（例如，ψ(θ) = (-1)^k cos(mθ) - 2k 当 θ ∈ [kπ/m, (k+1)π/m]）。
推导关于 x_i 与 W_yi 的梯度以实现 SGD 更新（对于 m ≥ 2 通过多项式展开的特殊处理）。
提供一个关于 cos(θ_yi) 的实用查找方法，并概括 m=2 的前向/后向计算作为一个具体示例。

实验结果

研究问题

RQ1在 softmax 目标函数中引入角度边距是否能提高 CNN 特征的类内紧凑性与类间可分离性？
RQ2L-Softmax 是否在标准基准测试上为视觉分类和验证任务带来实际的收益？
RQ3L-Softmax 是否可以与标准 SGD 训练以及现有的 CNN 架构兼容且不过度过拟合？
RQ4边距参数 m 如何影响判别性与学习难度？

主要发现

L-Softmax 在较大角度边距下产生更具辨识性的特征，实验中提高了类别可分离性。
在 MNIST 上，L-Softmax 取 m=2/3/4 时的错误率低于 softmax 和若干基线（例如，MNIST 上 softmax 为 0.40%，m=3 为 0.31%）。
在 CIFAR-10 未做数据增强的情况下，L-Softmax 的 m=2/4 将 CIFAR-10 的错误率从 softmax 的 9.05% 降至 7.58%（m=4）；在增强后，CIFAR-10+ 降至 5.92%（m=4）。
在 CIFAR-100 上，L-Softmax 将错误率降至 29.53%（m=4），而 softmax 及其他基线为 32.74%。
在 LFW 人脸验证上，L-Softmax 实现了更高的准确率（例如，使用 CASIA-WebFace 作为训练并采用标准评估协议时，m=4 的准确率为 98.71%）。
该方法可以缓解过拟合，并随网络容量扩展而提升性能，因为更大的模型在 L-Softmax 下还能进一步提高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。