Skip to main content
QUICK REVIEW

[論文レビュー] Analysis of the Impact of Negative Sampling on Link Prediction in Knowledge Graphs

Bhushan Kotnis, Vivi Năstase|arXiv (Cornell University)|Aug 22, 2017
Advanced Graph Neural Networks参考文献 28被引用数 63
ひとこと要約

本論文は、FB15kとWN18上で、4つの知識グラフ埋め込みモデル(ComplEx、DistMult、Rescal、TransE)に対するさまざまなネガティブサンプリング戦略がリンク予測精度に与える影響を実証的に調査し、2つの新しいサンプリング手法を提案し、データセット依存の効果を示す。

ABSTRACT

Knowledge graphs are large, useful, but incomplete knowledge repositories. They encode knowledge through entities and relations which define each other through the connective structure of the graph. This has inspired methods for the joint embedding of entities and relations in continuous low-dimensional vector spaces, that can be used to induce new edges in the graph, i.e., link prediction in knowledge graphs. Learning these representations relies on contrasting positive instances with negative ones. Knowledge graphs include only positive relation instances, leaving the door open for a variety of methods for selecting negative examples. In this paper we present an empirical study on the impact of negative sampling on the learned embeddings, assessed through the task of link prediction. We use state-of-the-art knowledge graph embeddings -- escal , TransE, DistMult and ComplEX -- and evaluate on benchmark datasets -- FB15k and WN18. We compare well known methods for negative sampling and additionally propose embedding based sampling methods. We note a marked difference in the impact of these sampling methods on the two datasets, with the "traditional" corrupting positives method leading to best results on WN18, while embedding based methods benefiting the task on FB15k.

研究の動機と目的

  • Negative sampling の選択が KG 埋め込み品質(リンク予測)に及ぼす影響を動機づけ、理解する。
  • 最先端の埋め込みモデルを多様なネガティブサンプリング regimes で比較する。
  • 2つの新しいネガティブサンプリング戦略を提案し、その有効性を評価する。
  • FB15k 対 WN18 のデータセット特性が手法の性能に与える影響を評価する。
  • 与えられた KG とモデルに対してネガティブサンプリング戦略を選択する際のガイドラインを提供する。

提案手法

  • PyTorch で max-margin loss と単位ノルム制約を共有する形で Rescal、TransE、DistMult、ComplEx を再実装した。
  • Random、Corrupting positives、Typed、Relational、Nearest Neighbor、Near Miss、および事前学習済み埋め込みベースのサンプラーなど、複数のネガティブサンプリング方式を評価した。
  • 事前学習済みのネガティブサンプリングモデルを用いて難易度の高いネガティブを生成する2つの新規サンプリング手法(Nearest Neighbor および Near Miss)を導入した。
  • FB15k と WN18 に特有の訓練設定を用い、ハイパーパラメータ探索と早期停止を通じてチューニングを行なった。
  • パフォーマンスの評価には MR R と Hits@K(FB15k は Hits@10、WN18 は Hits@1)を用いた。
  • 最大マ-margin loss を用いた先行研究と比較し、関係頻度のスライス(OOM)を分析して性能差を説明した。

実験結果

リサーチクエスチョン

  • RQ1さまざまなネガティブサンプリング戦略は、KG 埋め込みモデルにおけるリンク予測性能にどのような影響を与えるか?
  • RQ2データセットの特性(FB15k vs. WN18)は、最も効果的なネガティブサンプリング手法を変えるのか?
  • RQ3新たに提案されたサンプリング手法(Nearest Neighbor、Near Miss)は、これらのデータセットで従来の正例破壊法を上回るのか?
  • RQ4モデルタイプとデータの sparsity がネガティブサンプリングの選択にどのように影響し、MRR や Hits@K にどう結びつくか?
  • RQ5KG の特性と選択した埋め込みモデルに対して、ネガティブサンプリング手法を選択する際にどのようなガイドラインが生まれるか?

主な発見

ModelNegative samplingMRRHITS@10
DistMultNear Miss (FB15k)0.4670.64
RescalNear Miss (FB15k)0.4264.34
TransENear Miss (FB15k)0.3762.97
DistMultCorrupt (WN18)0.8294.06
RescalCorrupt (WN18)0.9293.91
TransECorrupt (WN18)0.4086.98
  • Near Miss サンプリングは、複数のモデルで FB15k 上で一般的に強い結果を示す。
  • 埋め込みベースのサンプリング手法(Nearest Neighbor、Near Miss)は FB15k で特に有効で、データの sparsity と戦うのに寄与する。
  • Corrupting positive triples は WN18 で最も良く機能し、特に Rescal と相性が良い;一部のモデル(例:TransE)では random sampling も競争力を持つ。
  • TransE は 1:1 関係の仮定のためランダムネガティブから恩恵を受ける一方で、他のモデルはより難しいネガティブから利を得る。
  • FB15k のデータスパーシティ(多くの関係が少数の事例を持つ)が corrupt sampling の有効性を低下させる一方で、WN18 の密度の高い内在的関係は corrupt ベースのネガティブを好む。
  • 総じて、最適なネガティブサンプリング戦略はデータセットとモデルに依存し、near-miss / nearest-neighbor は Freebase 的データで良く機能し、corruption は WordNet で優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。