Skip to main content
QUICK REVIEW

[論文レビュー] Learning New Facts From Knowledge Bases With Neural Tensor Networks and Semantic Word Vectors

Danqi Chen, Richard Socher|arXiv (Cornell University)|Jan 16, 2013
Topic Modeling参考文献 11被引用数 60
ひとこと要約

この論文では、既存の関係データからエンティティ表現を学習し、テンソルベースのスコア関数を用いた双線形相互作用により、知識ベース内の新しい関係を予測するニューラルテンソルネットワーク(NTN)モデルを提案する。初期化に自己教師ありの単語ベクトルを用いることで、未観測のWordNet関係の分類で75.8%の精度、順位付けで20.9%のrecall@100を達成し、類似度モデルやハダマールモデルといった先行モデルを上回る性能を発揮した。

ABSTRACT

Knowledge bases provide applications with the benefit of easily accessible, systematic relational knowledge but often suffer in practice from their incompleteness and lack of knowledge of new entities and relations. Much work has focused on building or extending them by finding patterns in large unannotated text corpora. In contrast, here we mainly aim to complete a knowledge base by predicting additional true relationships between entities, based on generalizations that can be discerned in the given knowledgebase. We introduce a neural tensor network (NTN) model which predicts new relationship entries that can be added to the database. This model can be improved by initializing entity representations with word vectors learned in an unsupervised fashion from text, and when doing this, existing relations can even be queried for entities that were not present in the database. Our model generalizes and outperforms existing models for this problem, and can classify unseen relationships in WordNet with an accuracy of 75.8%.

研究の動機と目的

  • 既存の知識ベースのみを用いて、エンティティ間の新しい真の関係を予測することで、知識ベースの不完全性に対処すること。
  • 大規模なテキストコーパスから学習された分散表現の単語ベクトルを活用することで、未観測のエンティティや関係への一般化を向上させること。
  • 先行の線形的またはハダマールベースのアプローチよりも表現力の高い関係モデルを、知識ベースの完成に向け開発すること。
  • WordNetにおける未観測関係の分類および順位付けの両タスクにおいて、モデルの性能を評価すること。

提案手法

  • モデルは、エンティティベクトルe₁とe₂の間の双線形相互作用をテンソルW^{[i]}を介して計算するニューラルテンソルネットワーク(NTN)を用いる。
  • スコア関数g(e₁, R, e₂)は、Uᵀ tanh( e₁ᵀW^{[i]}e₂ + V_R [e₁; e₂] + b_R )として定義され、テンソルがエンティティ間の直接的な相互作用を捉える。
  • エンティティ表現は、Wikipedia上で自己教師ありモデルで学習された100次元の事前学習済み単語ベクトルを用いて初期化される。これにより、文法的および意味的情報を捉える。
  • 複数語のエンティティ名の場合は、単語ベクトルを平均化して1つのエンティティ表現を形成する。これにより、未観測のエンティティへの一般化が可能になる。
  • 正例と負例の差を考慮したコントラスト型のマックスマージン最適化を用いて、正しくないトリプレットのスコアを低く抑えるように学習を行う。
  • 評価には分類(正解率)と順位付け(recall@100)の両方を含み、真のトリプレットのエンティティと関係をシャッフルすることで負例を生成する。

実験結果

リサーチクエスチョン

  • RQ1エンティティベクトル間の双線形相互作用を有するニューラルテンソルネットワークは、線形モデルに比べて、新しい知識ベースの事実を予測する際に優れた性能を発揮するか?
  • RQ2自己教師ありの単語ベクトルは、知識ベースの完成において、未観測のエンティティや関係への一般化をどの程度向上させるか?
  • RQ3与えられた関係とヘッドエンティティに対して、正解エンティティを数万件の候補の中からどれだけうまく順位付けできるか?
  • RQ4元の知識ベースに存在しないエンティティの関係を予測する際、モデルは高い性能を維持するか?

主な発見

  • 意味的単語ベクトルで初期化したNTNモデルは、未観測のWordNet関係の分類で75.8%の精度を達成し、類似度モデル(66.7%)やハダマールモデル(71.9%)を顕著に上回った。
  • 意味的初期化を施した場合、recall@100は20.9%に達し、類似度モデルの10.6%を2倍以上、ハダマールモデルの7.4%を3倍以上上回った。
  • ランダムベクトルで初期化した場合、NTNの性能は70.0%の精度と16.9%のrecall@100に低下し、事前学習済み埋め込みの重要性が明確に示された。
  • 元の知識ベースに存在しないエンティティに対しても、その単語ベクトル表現を用いることで関係を推論でき、ゼロショット一般化が可能になった。
  • 複数語のエンティティ名に対して単語ベクトルを平均化する手法により、統計的強度が向上し、エンティティ名の間での一般化が可能になった。
  • モデルの双線形テンソル相互作用機構は、線形的またはハダマールベースの代替手法よりも表現力に優れており、順位付けと分類の両タスクで優れた性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。