Skip to main content
QUICK REVIEW

[論文レビュー] TaxoBell: Gaussian Box Embeddings for Self-Supervised Taxonomy Expansion

Sahil Mishra, Srinitish Srinivasan|arXiv (Cornell University)|Jan 14, 2026
Machine Learning in Healthcare被引用数 0
ひとこと要約

TaxoBell は自己教師付き taxonomy 拡張のために非対称な含意関係をモデル化するガウス箱エンベディングとキャリブレートされた不確実性を導入し、複数のベンチマークでベースラインを上回る。

ABSTRACT

Taxonomies form the backbone of structured knowledge representation across diverse domains, enabling applications such as e-commerce catalogs, semantic search, and biomedical discovery. Yet, manual taxonomy expansion is labor-intensive and cannot keep pace with the emergence of new concepts. Existing automated methods rely on point-based vector embeddings, which model symmetric similarity and thus struggle with the asymmetric "is-a" relationships that are fundamental to taxonomies. Box embeddings offer a promising alternative by enabling containment and disjointness, but they face key issues: (i) unstable gradients at the intersection boundaries, (ii) no notion of semantic uncertainty, and (iii) limited capacity to represent polysemy or ambiguity. We address these shortcomings with TaxoBell, a Gaussian box embedding framework that translates between box geometries and multivariate Gaussian distributions, where means encode semantic location and covariances encode uncertainty. Energy-based optimization yields stable optimization, robust modeling of ambiguous concepts, and interpretable hierarchical reasoning. Extensive experimentation on five benchmark datasets demonstrates that TaxoBell significantly outperforms eight state-of-the-art taxonomy expansion baselines by 19% in MRR and around 25% in Recall@k. We further demonstrate the advantages and pitfalls of TaxoBell with error analysis and ablation studies.

研究の動機と目的

  • 概念セットの急速な拡大に対応する自動化された taxonomy 拡張の動機付け。
  • 非対称な上位概念関係と不確実性の捕捉における点埋め込みの限界の克服。
  • 意味的位置と calibrated 不確実性を結合させた containment および overlap を実現するガウス箱エンベディングの提案。
  • 対称的な重なりと非対称的な包含を同時に最適化するエネルギーベースの学習目的の開発。
  • TaxoBell を様々なベンチマークデータセットで評価し、最先端ベースラインを上回ることを示す。

提案手法

  • 各概念を表面名と定義を軸に揃えた箱へ写像する事前訓練済みエンコーダーを用いてガウス箱として表現する。
  • 箱を均一多変量ガウス分布へ変換し、平均を箱の中心、対角共分散を箱オフセットから得る。
  • 近傍から抽出された難例を与える seed taxonomy からの自己教師あり信号で訓練する。
  • 2つのエネルギーを最適化する:意味的類似性の対称的重なり(Bhattacharyya係数)と階層的方向性の非対称包含(KL発散) 。
  • 退化を防ぎ、共分散を良好に条件付けるよう体積正則化を行う。
  • 推論時には学習済みエネルギーで候補親をランク付けし、ガウスを選択した信頼度レベルで箱へ再変換する。
Figure 1. Overview of taxonomy expansion and the contribution of our TaxoBell model.
Figure 1. Overview of taxonomy expansion and the contribution of our TaxoBell model.

実験結果

リサーチクエスチョン

  • RQ1Gaussian box エンベディングは taxonomy 拡張のために非対称な上位概念関係と不確実性をどのように捉えられるか?
  • RQ2seed taxonomy を用いた自己教師あり訓練は親–子関係を効果的に学習するのに十分か?
  • RQ3対称エネルギー項と非対称エネルギー項は適切なアンカーの下で概念の配置を jointly 改善するか?
  • RQ4TaxoBell は diverse なドメインで最先端の taxonomy 拡張ベースラインと比較してどうか?
  • RQ5共分散(不確実性)モデリングが多義性や曖昧さへの頑健性に与える影響はどれくらいか?

主な発見

  • TaxoBell は 5 つの実世界の taxonomy ベンチマークで 8つのベースラインを一貫して上回る。
  • モデルは Mean Rank (MRR) および Recall@k 指標で改善を示し、正しい親の配置と検索の精度が向上。
  • 対称的重なりと非対称的包含のエネルギーの組み合わせは安定した最適化と階層的推論を強化。
  • アブレーション研究により、性能向上には投影設計とエネルギーベース最適化の双方が重要であることが示された。
  • 誤り分析とケーススタディは、見えないエンティティに対するガウス箱表現の解釈性と柔軟性を示す。
Figure 2. Overview of TaxoBell . Entities are encoded with $f_{\eta}(.)$ , mapped to axis-aligned boxes using $f_{\psi}(.)$ , and then projected to Gaussian embeddings. Training optimizes two energies on the Gaussians – a symmetric overlap term (Bhattacharyya Coefficient) and an asymmetric containme
Figure 2. Overview of TaxoBell . Entities are encoded with $f_{\eta}(.)$ , mapped to axis-aligned boxes using $f_{\psi}(.)$ , and then projected to Gaussian embeddings. Training optimizes two energies on the Gaussians – a symmetric overlap term (Bhattacharyya Coefficient) and an asymmetric containme

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。