[论文解读] DiSMEC - Distributed Sparse Machines for Extreme Multi-label Classification
DiSMEC 提出了一种用于极端多标签分类(XMC)的分布式稀疏机器学习框架,通过使用带显式容量控制的稀疏性诱导的一对多线性分类器,绕过了低秩假设。该方法在模型大小减少三个数量级的同时,实现了比 FastXML 高达 15%、比 SLEEC 高出 10% 的准确率,并可在数百个万个标签上实现数小时内完成训练,得益于双重并行化机制。
Extreme multi-label classification refers to supervised multi-label learning involving hundreds of thousands or even millions of labels. Datasets in extreme classification exhibit fit to power-law distribution, i.e. a large fraction of labels have very few positive instances in the data distribution. Most state-of-the-art approaches for extreme multi-label classification attempt to capture correlation among labels by embedding the label matrix to a low-dimensional linear sub-space. However, in the presence of power-law distributed extremely large and diverse label spaces, structural assumptions such as low rank can be easily violated. In this work, we present DiSMEC, which is a large-scale distributed framework for learning one-versus-rest linear classifiers coupled with explicit capacity control to control model size. Unlike most state-of-the-art methods, DiSMEC does not make any low rank assumptions on the label matrix. Using double layer of parallelization, DiSMEC can learn classifiers for datasets consisting hundreds of thousands labels within few hours. The explicit capacity control mechanism filters out spurious parameters which keep the model compact in size, without losing prediction accuracy. We conduct extensive empirical evaluation on publicly available real-world datasets consisting upto 670,000 labels. We compare DiSMEC with recent state-of-the-art approaches, including - SLEEC which is a leading approach for learning sparse local embeddings, and FastXML which is a tree-based approach optimizing ranking based loss function. On some of the datasets, DiSMEC can significantly boost prediction accuracies - 10% better compared to SLECC and 15% better compared to FastXML, in absolute terms.
研究动机与目标
- 解决极端多标签分类(XMC)在 100,000 至 670,000 个标签的标签集合下的计算、存储和统计挑战。
- 克服低秩嵌入方法在幂律分布标签空间中的局限性,此类空间中许多标签的训练样本极少。
- 开发一种可扩展的分布式框架,可在不依赖标签矩阵低秩假设的前提下,高效训练和预测大规模标签集。
- 通过显式控制模型大小,消除冗余参数,确保模型紧凑性而不损失预测准确率。
提出的方法
- 采用双重并行化架构:跨标签的数据并行与跨特征块的模型并行,以支持数10万个标签的扩展。
- 使用分布式训练的一对多线性分类器,避免对标签矩阵施加任何低秩假设。
- 通过超参数 Δ 显式诱导稀疏性,以修剪冗余权重,过滤掉数十亿个虚假参数。
- 引入两阶段学习流程:首先分批训练分类器,然后应用稀疏性控制以在保持准确率的同时减小模型大小。
- 利用输入特征和模型权重中的稀疏性,通过高效的向量-矩阵点积实现快速、并行化的预测。
- 采用容量控制机制,通过调节 Δ 来调节模型大小与预测准确率之间的权衡,有效在 l1 和 l2 正则化之间插值。
实验结果
研究问题
- RQ1在不假设标签矩阵具有低秩结构的前提下,分布式一对多学习框架是否能够超越当前最先进的基于嵌入和基于树的 XMC 方法?
- RQ2通过超参数 Δ 显式诱导稀疏性,在保持或提升极端多标签数据集预测准确率的同时,是否能有效减小模型大小?
- RQ3双层并行化在多大程度上能缩短训练时间,并实现在最多 670,000 个标签的数据集上的实时推理?
- RQ4标签频率的幂律分布如何影响非低秩方法(如 DiSMEC)与低秩替代方法的性能表现?
主要发现
- 在 WikiLSHTC-325K 数据集上,DiSMEC 实现了 64.4% 的 precision@1,显著优于 SLEEC 在相同 3GB 模型大小限制下的 52%。
- 在某些数据集上,DiSMEC 相较于 SLEEC 提升了 10 个百分点的预测准确率,相较 FastXML 提升了 15 个百分点(绝对值)。
- 对于 WikiLSHTC-325K 数据集,DiSMEC 通过显式稀疏性控制,将模型大小从先前工作中报告的 870GB 降低至仅 3GB。
- DiSMEC 在 300 个核心上用约 10 分钟训练完 Wikipedia-31K 数据集,在 400 个核心上用约 6 小时训练完 WikiLSHTC-325K 数据集,将训练时间从数周缩短至数小时。
- 在 WikiLSHTC-325K 上,预测速度达到每测试实例 3 毫秒,比 LEML 快 1,000 倍,与 FastXML(0.5 毫秒)相当,支持实时部署。
- 超参数 Δ 允许在模型紧凑性与准确率之间进行调节,Δ=0.01 时达到近似最优性能,且与 Δ=0 相比准确率下降极小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。