[论文解读] TaxoBell: Gaussian Box Embeddings for Self-Supervised Taxonomy Expansion
TaxoBell 引入高斯盒嵌入以建模具有校准不确定性的非对称包含关系,用于自监督的分类法扩展,在多个基线数据集上表现更佳。
Taxonomies form the backbone of structured knowledge representation across diverse domains, enabling applications such as e-commerce catalogs, semantic search, and biomedical discovery. Yet, manual taxonomy expansion is labor-intensive and cannot keep pace with the emergence of new concepts. Existing automated methods rely on point-based vector embeddings, which model symmetric similarity and thus struggle with the asymmetric "is-a" relationships that are fundamental to taxonomies. Box embeddings offer a promising alternative by enabling containment and disjointness, but they face key issues: (i) unstable gradients at the intersection boundaries, (ii) no notion of semantic uncertainty, and (iii) limited capacity to represent polysemy or ambiguity. We address these shortcomings with TaxoBell, a Gaussian box embedding framework that translates between box geometries and multivariate Gaussian distributions, where means encode semantic location and covariances encode uncertainty. Energy-based optimization yields stable optimization, robust modeling of ambiguous concepts, and interpretable hierarchical reasoning. Extensive experimentation on five benchmark datasets demonstrates that TaxoBell significantly outperforms eight state-of-the-art taxonomy expansion baselines by 19% in MRR and around 25% in Recall@k. We further demonstrate the advantages and pitfalls of TaxoBell with error analysis and ablation studies.
研究动机与目标
- 促成自动化的分类法扩展,以应对快速增长的概念集合规模。
- 解决点嵌入在捕捉非对称上位词关系与不确定性方面的局限性。
- 提出耦合语义位置与经过校准的不确定性的高斯盒嵌入,以实现包含与重叠的建模。
- 开发一个能量化训练目标,联合优化对称重叠与非对称包含。
- 在基准数据集上评估 TaxoBell 以展示相较于最先进基线的改进。
提出的方法
- 将每个概念表示为高斯盒:通过预训练编码器将表层名称和定义映射到轴对齐的盒子中。
- 将盒子转换为多变量高斯分布,均值设为盒子中心,协方差对角矩阵取自盒子偏移量。
- 使用种子分类法的自监督信号进行训练,并从局部邻域中采样困难负样本。
- 优化两种能量:对称重叠(Bhattacharyya 系数)衡量语义相似性,以及非对称包含(KL 发散)衡量层次方向性。
- 正则化体积以防止坍缩并确保协方差的良好条件数。
- 在推断阶段,通过学习到的能量对候选父节点进行排序,并在选定的置信水平下将高斯回归为盒子。

实验结果
研究问题
- RQ1高斯盒嵌入如何捕捉用于分类法扩展的非对称上位词关系与不确定性?
- RQ2仅使用种子分类法的自监督训练是否足以学习有效的父–子关系?
- RQ3对称与非对称能量项是否联合改进在适当锚点下对查询概念的定位?
- RQ4TaxoBell 相对于跨领域的最先进分类法扩展基线的表现如何?
- RQ5协方差(不确定性)建模对多义性与歧义的鲁棒性有何影响?
主要发现
- TaxoBell 在五个真实世界分类法基准上持续超越八个基线。
- 模型在 Mean Rank (MRR) 与 Recall@k 指标上有改进,体现了对正确父节点的更好定位与检索。
- 对称重叠与非对称包含的能量组合提供了稳定的优化与增强的层级推理。
- 消融研究显示投影设计与能量化优化对性能提升的重要性。
- 错误分析与案例研究展示了高斯盒表示在未见实体上的可解释性与灵活性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。