[论文解读] Bonsai -- Diverse and Shallow Trees for Extreme Multi-label Classification
Bonsai 引入一族 XMC 方法,使用广义标签表示和浅层、高分支因子树,以实现快速训练和对尾部标签预测的高精度,在大型数据集上超越最先进的树方法,并媲美对一对多(one-vs-rest)方法。
Extreme multi-label classification (XMC) refers to supervised multi-label learning involving hundreds of thousand or even millions of labels. In this paper, we develop a suite of algorithms, called Bonsai, which generalizes the notion of label representation in XMC, and partitions the labels in the representation space to learn shallow trees. We show three concrete realizations of this label representation space including : (i) the input space which is spanned by the input features, (ii) the output space spanned by label vectors based on their co-occurrence with other labels, and (iii) the joint space by combining the input and output representations. Furthermore, the constraint-free multi-way partitions learnt iteratively in these spaces lead to shallow trees. By combining the effect of shallow trees and generalized label representation, Bonsai achieves the best of both worlds - fast training which is comparable to state-of-the-art tree-based methods in XMC, and much better prediction accuracy, particularly on tail-labels. On a benchmark Amazon-3M dataset with 3 million labels, \\bonsai outperforms a state-of-the-art one-vs-rest method in terms of prediction accuracy, while being approximately 200 times faster to train. The code for Bonsai is available at \\url{https://github.com/xmc-aalto/bonsai}
研究动机与目标
- 在幂律分布下,推动具有多数量尾部标签的高效极端多标签分类(XMC)的研究。
- 提出一个广义标签表示框架,超越输入空间标签表示的范围。
- 开发一种浅层、高分支因子树结构,以减少级联预测中的错误传播。
- 证明将多样化标签表示与浅层树结合,能够同时实现快速训练和高精度,特别是在尾部标签上。
提出的方法
- 将每个标签在三个空间中表示:输入空间(活跃样本的总和)、输出空间(标签与其他标签的共现),以及通过将输入表示与输出表示拼接得到的联合空间。
- 使用 K-means 将标签空间划分为每个节点的 K 个簇,K 通常很大(K ≥ 100),以创建浅层树和多样的划分。
- 在每个非叶节点训练 K 路 one-vs-rest 的线性分类器以将预测路由到树的下层,在叶节点训练 one-vs-rest 分类器以预测实际标签。
- 允许无约束的多路(K 进制)划分以促进多样性并避免如 Parabel 之类二叉树常见的深度误差传播。
- 在预测阶段使用束搜索遍历树并评估叶节点分类器,以减轻传播误差。
实验结果
研究问题
- RQ1广义标签表示是否能在 XMC 中改善分区质量和尾部标签覆盖?
- RQ2提高分支因子以创建浅层树是否能减少错误传播并提高尾部标签准确性,相较于更深的二叉树?
- RQ3在 Bonsai 中,输入空间、输出空间和联合空间标签表示在单独与组合时的比较如何?
- RQ4在网络规模的标签集(如数百万标签)上,Bonsai 相对于最先进方法的实际训练速度和可扩展性如何?
- RQ5Bonsai 在具有不同尾部标签分布和特征数量的多样数据集上的表现如何?
主要发现
- 在多个数据集上,使用广义标签表示的 Bonsai 实现了强预测性能和尾部标签覆盖。
- 高分支数、浅层树(K ≥ 100)相较于更深的二叉树减少错误传播,从而提升尾部标签的准确性。
- 联合输入-输出表示(Bonsai-io)通常优于仅输入(Bonsai-i)和仅输出(Bonsai-o),特别是在每个样本的平均标签较高时。
- 在拥有 3 百万标签的 Amazon-3M 数据集上,Bonsai 的训练速度比最先进的 one-vs-rest 方法快得多(约 200 倍),同时达到具有竞争力的准确性。
- 在数据集(EURLex-4K、Wikipedia-31K、WikiLSHTC-325K、Wikipedia-500K、Amazon-670K、Amazon-3M)上,Bonsai 的变体在 precision@k 和 nDCG@k 指标上持续优于 Parabel;DiSMEC 有时在某些数据集上稍胜于 Bonsai,但训练成本显著更高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。