[论文解读] Stochastic Negative Mining for Learning with Large Output Spaces
本文提出随机负样本挖掘(Stochastic Negative Mining, SNM),一种在大规模输出空间检索任务中训练集合输出分类器的统计上合理且可扩展的方法。通过引入校准且凸的有序加权损失(Ordered Weighted Losses, OWLs),SNM仅采样部分负样本,即可高效优化top-k相关性,在Amazon670K和WikiLSHTC等大规模数据集上,召回率和精确率显著优于标准负样本采样方法。
We consider the problem of retrieving the most relevant labels for a given input when the size of the output space is very large. Retrieval methods are modeled as set-valued classifiers which output a small set of classes for each input, and a mistake is made if the label is not in the output set. Despite its practical importance, a statistically principled, yet practical solution to this problem is largely missing. To this end, we first define a family of surrogate losses and show that they are calibrated and convex under certain conditions on the loss parameters and data distribution, thereby establishing a statistical and analytical basis for using these losses. Furthermore, we identify a particularly intuitive class of loss functions in the aforementioned family and show that they are amenable to practical implementation in the large output space setting (i.e. computation is possible without evaluating scores of all labels) by developing a technique called Stochastic Negative Mining. We also provide generalization error bounds for the losses in the family. Finally, we conduct experiments which demonstrate that Stochastic Negative Mining yields benefits over commonly used negative sampling approaches.
研究动机与目标
- 解决大规模输出空间检索任务中缺乏统计上合理且可扩展的训练方法的问题。
- 设计一族校准且凸的代理损失函数,确保收敛至贝叶斯最优预测器。
- 在无需评估所有标签的情况下,实现在高维输出空间中对这些损失函数的实用化优化。
- 提供泛化误差界,为损失函数的超参数选择提供指导。
- 通过实证验证,SNM在检索性能上优于标准负样本采样。
提出的方法
- 提出有序加权损失(OWLs)家族,该族代理损失在数据和损失参数满足弱条件时,具备校准性和凸性。
- 提出随机负样本挖掘(SNM)技术,通过采样少量类别,并将其中得分最高的k个视为负样本,避免对所有标签进行评分。
- 采用top-k SNM变体,将采样中得分最高的非正类视为难负样本,提升模型鲁棒性。
- 利用Rademacher复杂度和高斯复杂度推导OWLs的泛化误差界,为损失参数选择提供理论指导。
- 在训练中采用随机梯度下降,对嵌入层使用较大的学习率,对线性层使用动量。
- 在BOWL(二值加权损失)设置下采用合页损失(hinge loss),在多个数据集上均表现出一致的性能提升。
实验结果
研究问题
- RQ1能否设计出一族既具备统计校准性又为凸的代理损失,适用于大规模输出空间检索?
- RQ2此类损失能否在不评估所有可能输出类别的得分情况下实现实际优化?
- RQ3随机负样本挖掘是否能带来优于标准负样本采样的泛化能力和检索性能?
- RQ4OWLs的泛化误差界在实践中如何指导损失参数的选择?
- RQ5SNM能否与深度学习模型结合,以提升大规模多标签和多分类检索任务的性能?
主要发现
- 在所有数据集中,top-k随机负样本挖掘(SNM)在k=1时表现最佳,显著优于标准负样本采样。
- 在Amazon670K数据集上,SNM实现P@3为40.37,较负样本采样提升2.5%,P@5为36.92,显示出显著的召回增益。
- SNM使Precision@k最高提升1.3倍,且无额外计算成本,甚至在效率上略有提升。
- 该方法优于其他基于嵌入的模型(如SLEEC和LEML),并与更复杂的模型(如PfastreXML和DiSMEC)具有竞争力。
- 推导出OWLs的泛化误差界,为实际中损失参数的选择提供了理论依据。
- 实证结果表明,即使在简单的神经网络架构下,SNM也表现出色,预示着与更先进模型结合后具有巨大潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。