[论文解读] AttentionXML: Label Tree-based Attention-Aware Deep Model for High-Performance Extreme Multi-Label Text Classification
AttentionXML 引入了基于标签树的深度模型,结合多标签注意力,用以在极大规模下处理 XMTC,尤其在尾部标签上取得最先进的结果。
Extreme multi-label text classification (XMTC) is an important problem in the era of big data, for tagging a given text with the most relevant multiple labels from an extremely large-scale label set. XMTC can be found in many applications, such as item categorization, web page tagging, and news annotation. Traditionally most methods used bag-of-words (BOW) as inputs, ignoring word context as well as deep semantic information. Recent attempts to overcome the problems of BOW by deep learning still suffer from 1) failing to capture the important subtext for each label and 2) lack of scalability against the huge number of labels. We propose a new label tree-based deep learning model for XMTC, called AttentionXML, with two unique features: 1) a multi-label attention mechanism with raw text as input, which allows to capture the most relevant part of text to each label; and 2) a shallow and wide probabilistic label tree (PLT), which allows to handle millions of labels, especially for "tail labels". We empirically compared the performance of AttentionXML with those of eight state-of-the-art methods over six benchmark datasets, including Amazon-3M with around 3 million labels. AttentionXML outperformed all competing methods under all experimental settings. Experimental results also show that AttentionXML achieved the best performance against tail labels among label tree-based methods. The code and datasets are available at http://github.com/yourh/AttentionXML .
研究动机与目标
- 将 XMTC 的动机描述为对文本进行标注,标签集极其庞大,并解决上下文、可扩展性和尾部标签性能的挑战。
- 提出一种基于标签树的深度模型,使用原始文本并通过注意力为每个标签定制表示。
- 引入一个浅而宽的概率标签树(PLT),以实现对数百万标签的可扩展训练和推断。
- 证明对原始文本和 PLT 的注意力在多个数据集上优于基线,特别是对尾部标签的表现。
提出的方法
- 通过压缩初始标签的层次划分来构建一个浅而宽的概率标签树(PLT),以减少树高并平衡标签分布。
- 使用基于 BiLSTM 的神经编码器,配合每个标签的多标签注意力机制,从原始文本生成标签特定的表示。
- 对每个 PLT 级别训练一个逐层的 AttentionXML 模型,使用候选标签感知采样将学习聚焦在信息量大的节点上。
- 通过带束搜索遍历 PLT 来进行预测,沿路径通过概率链式规则计算标签分数。
- 在全连接层和输出层跨标签共享参数,以减少模型大小并提高泛化能力。
- 从较浅级别的参数初始化更深级别的模型以加速收敛。
实验结果
研究问题
- RQ1基于标签树的方法在原始文本上进行深度注意力是否能够在极端规模下超越现有的 XMTC 方法?
- RQ2浅而宽的 PLT 是否能减轻尾部标签退化并提高尾部标签准确性?
- RQ3每个标签的多标签注意力相较于单一共享表示对性能有何影响?
- RQ4对极大规模标签集合,集合 PLT 对准确性和效率有何影响?
主要发现
- AttentionXML 在六个 XMTC 基准上都超过了八个最先进的基线,包括拥有约 300 万标签的 Amazon-3M。
- AttentionXML-1(单一 PLT)已经取得显著提升,特别是在文本较长的数据集上;集成 PLT 进一步提升准确性。
- BiLSTM 与多标签注意力的组合相较于 XML-CNN 和 BiLSTM 基线显著提升了性能,尤其是对较长文本。
- 一个浅而宽的 PLT 使在极端规模数据集上实现可扩展的训练和推断,同时保持具有竞争力或更优的准确性。
- AttentionXML 在尾部标签性能方面在标签树方法中表现更优,如 PSP@k 分析所示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。