Skip to main content
QUICK REVIEW

[论文解读] Heated-Up Softmax Embedding

Xu Zhang, Felix X. Yu|arXiv (Cornell University)|Sep 11, 2018
Advanced Memory and Neural Computing参考文献 18被引用 39
一句话总结

本文提出了一种'加热'策略,通过在深度神经网络分类器的训练过程中逐步提高Softmax函数的温度,从而提升嵌入的紧凑性和类间距离。通过在中间温度下进行训练并在较高温度下微调,该方法在聚类和检索的度量学习基准上实现了最先进性能,相较于现有的损失函数方法,训练过程更简单、更高效。

ABSTRACT

Metric learning aims at learning a distance which is consistent with the semantic meaning of the samples. The problem is generally solved by learning an embedding for each sample such that the embeddings of samples of the same category are compact while the embeddings of samples of different categories are spread-out in the feature space. We study the features extracted from the second last layer of a deep neural network based classifier trained with the cross entropy loss on top of the softmax layer. We show that training classifiers with different temperature values of softmax function leads to features with different levels of compactness. Leveraging these insights, we propose a "heating-up" strategy to train a classifier with increasing temperatures, leading the corresponding embeddings to achieve state-of-the-art performance on a variety of metric learning benchmarks.

研究动机与目标

  • 研究Softmax温度参数与深度神经网络中嵌入分布之间的关系。
  • 解决标准交叉熵训练分类器在度量学习中嵌入紧凑性与类间距离不足的挑战。
  • 开发一种提升下游度量学习任务(如聚类和检索)中嵌入质量的训练策略。
  • 为复杂损失函数(如三元组损失或对比损失)提供一种更简单、更高效的替代方案。

提出的方法

  • 通过分析Softmax层的梯度,揭示温度参数如何控制嵌入的紧凑性与类间距离。
  • 提出一种'加热'训练策略,从较低温度开始,并在训练过程中逐步提高温度。
  • 在最终的全连接层中使用固定温度,通过可学习标量α在Softmax函数中调节温度。
  • 对嵌入和分类器权重进行ℓ₂归一化,并在最终微调阶段使用α = 16或α = 4。
  • 训练过程从标准交叉熵损失开始,逐步过渡到更高温度以优化嵌入结构。
  • 使用标准度量学习指标(如聚类任务中的Recall@K和NMI)评估最终嵌入。

实验结果

研究问题

  • RQ1Softmax函数中的温度参数如何影响深度网络瓶颈层中特征的分布?
  • RQ2动态温度调度能否改善度量学习中嵌入的紧凑性与类间距离?
  • RQ3'加热'策略是否在下游度量学习任务中优于固定温度训练?
  • RQ4所提方法与最先进度量学习方法(如三元组损失和ProxyNCA)相比表现如何?

主要发现

  • 采用'加热'策略的模型(HLN和HBN)在所有四个基准数据集的聚类与检索任务中均达到最先进性能。
  • 该方法在所有指标上均优于标准Softmax基线和固定温度模型(如LN、BN),包括Recall@1和NMI。
  • 使用α = 16训练的模型在固定温度模型中表现最佳,表明其在紧凑性与类间距离之间达到了最优平衡。
  • 即使使用相同的骨干网络(GoogleNetV1)和评估指标(欧氏距离),'加热'策略也能显著提升性能。
  • 该方法在性能上优于或等同于复杂最先进方法,如ProxyNCA、带难例挖掘的三元组损失和提升结构损失。
  • 消融实验表明,'加热'策略在不同嵌入维度(64、128、256)和α值(4.0至64.0)下均能持续提升性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。