QUICK REVIEW

[論文レビュー] Joint Language Semantic and Structure Embedding for Knowledge Graph Completion

Jianhao Shen, Chenguang Wang|arXiv (Cornell University)|Sep 19, 2022

Topic Modeling被引用数 22

ひとこと要約

LaSS は事前学習済み言語モデルを確率的構造損失で微調整することで意味表現と KG 構造を共同埋め込みし、最先端の KG 完成とデータ効率を達成します。低リソース設定を含む。

ABSTRACT

The task of completing knowledge triplets has broad downstream applications. Both structural and semantic information plays an important role in knowledge graph completion. Unlike previous approaches that rely on either the structures or semantics of the knowledge graphs, we propose to jointly embed the semantics in the natural language description of the knowledge triplets with their structure information. Our method embeds knowledge graphs for the completion task via fine-tuning pre-trained language models with respect to a probabilistic structured loss, where the forward pass of the language models captures semantics and the loss reconstructs structures. Our extensive experiments on a variety of knowledge graph benchmarks have demonstrated the state-of-the-art performance of our method. We also show that our method can significantly improve the performance in a low-resource regime, thanks to the better use of semantics. The code and datasets are available at https://github.com/pkusjh/LASS.

研究の動機と目的

エンティティと関係の構造的パターンと意味表現の両方を活用してKG完成を動機付ける。
言語モデルからの意味埋め込みと確率的構造損失を組み合わせて構造再構成を行う統一埋め込みフレームワーク（LaSS）を提案する。
リンク予測とトリプレット分類の複数のKGベンチマークで最先端性能を示す。
意味情報を活用して低リソース設定でデータ効率の改善を示す。
意味と構造の統合の制限と今後の方向性について分析と考察を提供する。

提案手法

(h, r, t) のトリプレットを、h、r、t の自然言語説明を連結して事前学習済みLMに通し、平均プーリングによって意味埋め込みを取得するよう表現する。
TransE に似たスコア f(h,r,t)=b−0.5||h+r−t||^2 に基づく確率的構造損失を定義し、LMの訓練のために負例サンプリングを用いて Pr(h|r,t), Pr(r|h,t), Pr(t|h,r) を計算する。
この構造化損失を用いて KG データ上で LMs（BERT および RoBERTa の variants）を微調整し、共に意味と構造の埋め込みを作成する。
計算効率を保つために確率的損失の分配関数を近似するために負例サンプリングを用いる。
クエリ依存の埋め込み（LM出力を介）は意味的一貫性を維持しつつ、構造的損失が構造再構成を導く。
FB15k-237、FB13、WN18RR、WN11、UMLS を含む KG ベンチマークでリンク予測とトリプレット分類を評価する。

実験結果

リサーチクエスチョン

RQ1セマンティック記述とKG構造を統合する単一のフレームワークは、純粋な構造モデルや純粋な意味モデルを超えてKG完成タスクを改善できるか？
RQ2確率的構造損失で言語モデルを微調整することは、リンク予測とトリプレット分類のための意味と構造の効果的な結合埋め込みを可能にするか？
RQ3既存のKG完成手法と比較して低リソースデータ領域でのLaSSの性能はどうか？
RQ4異なる事前学習済み言語モデル（BERT 対 RoBERTa）およびモデルサイズの違いがKG完成性能に与える影響は？

主な発見

手法	FB15k-237 MR	FB15k-237 Hits@10	WN18RR MR	WN18RR Hits@10	UMLS MR	UMLS Hits@10
LaSS-BERT-BASE	131	0.479	55	0.725	1.39	0.991
LaSS-BERT-LARGE	120	0.527	41	0.769	1.58	0.990
LaSS-RoBERTa-BASE	116	0.500	53	0.737	1.41	0.994
LaSS-RoBERTa-LARGE	108	0.533	35	0.786	1.56	0.989

LaSS はリンク予測とトリプレット分類のいくつかのKGベンチマークで最先端の結果を達成。
LaSS はデータ効率の改善を示し、低リソース設定で良好に機能し、しばしば十分なラベルデータを用いて訓練された手法をはるかに上回る。
より大きなモデルを用いた LaSS のバリアント（LaSS-BERT LARGE、LaSS-RoBERTa LARGE）は、特に WordNet ベースのタスクで小型の counterparts よりも一般的に優れている。
LaSS は Semantic descriptions と構造的手がかりの両方を活用することで KG-BERT や従来の構造のみ手法を上回り、特に KG 構造を再構成しつつ意味的一貫性を維持する点で優れる。
分析は LaSS が注意機構と構造損失を通じて意味的関連性と構造パターンを捉え、予測の改善に寄与していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。