[论文解读] Cosine Normalization: Using Cosine Similarity Instead of Dot Product in Neural Networks
本文提出余弦归一化(cosine normalization),一种新颖的技术,通过在神经网络中用余弦相似度或中心化余弦相似度(皮尔逊相关系数)替代点积,以限制神经元激活并降低方差。在MNIST、20NEWS、CIFAR-10/100和SVHN上的实验表明,余弦归一化在测试误差和稳定性方面均优于批量归一化、权重归一化和层归一化,其中中心化余弦(PCC)表现最佳。
Traditionally, multi-layer neural networks use dot product between the output vector of previous layer and the incoming weight vector as the input to activation function. The result of dot product is unbounded, thus increases the risk of large variance. Large variance of neuron makes the model sensitive to the change of input distribution, thus results in poor generalization, and aggravates the internal covariate shift which slows down the training. To bound dot product and decrease the variance, we propose to use cosine similarity or centered cosine similarity (Pearson Correlation Coefficient) instead of dot product in neural networks, which we call cosine normalization. We compare cosine normalization with batch, weight and layer normalization in fully-connected neural networks as well as convolutional networks on the data sets of MNIST, 20NEWS GROUP, CIFAR-10/100 and SVHN. Experiments show that cosine normalization achieves better performance than other normalization techniques.
研究动机与目标
- 为解决深度神经网络中神经元激活方差无界的问题,该问题会导致泛化性能差和内部协变量偏移。
- 通过使用基于相似度的归一化将预激活值限制在[-1, 1]范围内,降低对输入分布变化的敏感性。
- 开发一种独立于批量统计的归一化技术,实现无需依赖批量计算的一致训练与推理。
- 在多种架构和数据集上评估余弦归一化与中心化余弦归一化(PCC)相对于现有归一化方法的有效性。
提出的方法
- 将标准点积 $ \mathbf{w} \cdot \mathbf{x} $ 替换为余弦相似度 $ \cos\theta = \frac{\mathbf{w} \cdot \mathbf{x}}{\|\mathbf{w}\| \|\mathbf{x}\|} $,将激活归一化至[-1, 1]范围。
- 作为替代方案,使用中心化余弦相似度(皮尔逊相关系数),可进一步消除均值偏差并提升稳定性。
- 在前向传播中直接应用归一化,消除对批量或层统计的依赖,确保训练与推理时行为一致。
- 在全连接网络和卷积网络中均实现该方法,卷积中对感受野进行归一化。
- 使用标准反向传播进行训练,梯度通过余弦相似度运算反向传播。
- 确保方法可微分,并与SGD、Adam等标准优化算法兼容。
实验结果
研究问题
- RQ1用余弦相似度替代点积是否能降低深层神经网络中的激活方差并提升模型泛化能力?
- RQ2余弦归一化与批量归一化、权重归一化和层归一化相比,在测试误差和训练稳定性方面表现如何?
- RQ3使用中心化余弦相似度(皮尔逊相关系数)是否能进一步提升相对于标准余弦归一化的性能?
- RQ4余弦归一化是否能有效应用于全连接网络和卷积网络,且不依赖批量统计?
- RQ5与现有归一化技术相比,余弦归一化是否能实现更快收敛或支持更高学习率?
主要发现
- 中心化余弦归一化(皮尔逊相关系数)在所有数据集上均取得最低测试误差:MNIST为1.39%,20NEWS为29.37%,CIFAR-10为6.39%,CIFAR-100为27.49%,SVHN为2.22%。
- 余弦归一化在所有数据集上表现第二佳,且方差显著低于批量归一化,后者在高维文本任务(如20NEWS)中表现出高不稳定性。
- 在MNIST上,余弦归一化将测试误差降至1.40%(均值),优于批量归一化(1.45%)和权重归一化(1.65%)。
- 在CIFAR-10上,余弦归一化实现7.33%的测试误差,优于批量归一化(8.08%)和权重归一化(8.55%),且方差更低。
- 在SVHN上,中心化余弦归一化实现2.22%的测试误差,优于批量归一化(2.49%)和层归一化(2.58%),且方差极小。
- 该方法在不同类型数据(手写数字、文本、自然图像)上均表现出一致的性能提升,证明其广泛适用性和鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。