QUICK REVIEW

[논문 리뷰] Joint Language Semantic and Structure Embedding for Knowledge Graph Completion

Jianhao Shen, Chenguang Wang|arXiv (Cornell University)|2022. 09. 19.

Topic Modeling인용 수 22

한 줄 요약

LaSS는 확률적으로 구조화된 손실로 프리트레이닝된 언어 모델을 미세 조정하여 시맨틱 설명과 KG 구조를 공동 임베딩하고, 상태 최첨단 KG 완성도와 데이터 효율성(저자원 설정 포함)을 달성합니다.

ABSTRACT

The task of completing knowledge triplets has broad downstream applications. Both structural and semantic information plays an important role in knowledge graph completion. Unlike previous approaches that rely on either the structures or semantics of the knowledge graphs, we propose to jointly embed the semantics in the natural language description of the knowledge triplets with their structure information. Our method embeds knowledge graphs for the completion task via fine-tuning pre-trained language models with respect to a probabilistic structured loss, where the forward pass of the language models captures semantics and the loss reconstructs structures. Our extensive experiments on a variety of knowledge graph benchmarks have demonstrated the state-of-the-art performance of our method. We also show that our method can significantly improve the performance in a low-resource regime, thanks to the better use of semantics. The code and datasets are available at https://github.com/pkusjh/LASS.

연구 동기 및 목표

구조적 패턴과 엔티티 및 관계의 시맨틱 설명 모두를 활용해 KG 완성을 동기화한다.
시맨틱 임베딩을 언어 모델에서 가져오고 구조 재구성을 위한 확률적 구조 손실을 결합하는 통합 임베딩 프레임워크(LaSS)를 제안한다.
링크 예측과 삼중항 분류에서 다수의 KG 벤치마크에서 최첨단 성능을 시연한다.
시맨틱 정보를 활용하여 저자원 설정에서의 데이터 효율성을 개선한다.
시맨틱스와 구조 통합의 한계 및 향후 방향에 대한 분석과 논의를 제공한다.

제안 방법

(h, r, t) 삼중항을 h, r, t의 자연어 설명을 연결하여 표현하고 이를 프리트레이닝된 LM에 전달해 평균 풀링을 통해 시맨틱 임베딩을 얻는다.
TransE 유사 점수 f(h,r,t)=b−0.5||h+r−t||^2를 기반으로 확률적 구조 손실을 정의하고 음수 샘플링으로 Pr(h|r,t), Pr(r|h,t), Pr(t|h,r)을 계산하여 LM을 훈련한다.
KG 데이터에 대해 이 구조 손실을 활용해 BERT 및 RoBERTa 변종의 LM을 미세 조정하여 시맨틱과 구조 임베딩을 공동으로 생성한다.
확률적 손실의 분할 함수가 계산 효율성을 유지하도록 분할 함수 근사에 음수 샘플링을 사용한다.
쿼리 의존적 임베딩(LM 출력)을 통해 시맨틱 일관성을 유지하고 구조 손실이 구조 재구성을 안내한다.
FB15k-237, FB13, WN18RR, WN11, UMLS를 포함한 KG 벤치마크에서 링크 예측과 삼중항 분류를 평가한다.]

실험 결과

연구 질문

RQ1단일 프레임워크가 시맨틱 설명과 KG 구조를 융합하여 순수한 구조 또는 순수한 시맨틱 모델보다 KG 완성 작업을 개선할 수 있는가?
RQ2확률적 구조 손실로 LM을 미세 조정하는 것이 시맨틱과 구조의 효과적인 공동 임베딩을 가능하게 하여 링크 예측 및 삼중항 분류에 기여하는가?
RQ3저자원 데이터 환경에서 LaSS의 성능은 기존 KG 완성 방법과 비교해 어떤 차이가 있는가?
RQ4다른 사전 학습된 언어 모델(BERT 대 RoBERTa) 및 모델 크기의 차이가 KG 완성 성능에 어떤 영향을 미치는가?

주요 결과

Method	FB15k-237 MR	FB15k-237 Hits@10	WN18RR MR	WN18RR Hits@10	UMLS MR	UMLS Hits@10
LaSS-BERT-BASE	131	0.479	55	0.725	1.39	0.991
LaSS-BERT-LARGE	120	0.527	41	0.769	1.58	0.990
LaSS-RoBERTa-BASE	116	0.500	53	0.737	1.41	0.994
LaSS-RoBERTa-LARGE	108	0.533	35	0.786	1.56	0.989

LaSS는 링크 예측 및 삼중항 분류에서 다수의 KG 벤치마크에서 최첨단 결과를 달성한다.
LaSS는 저자원 설정에서의 데이터 효율성을 개선하여 충분한 데이터로 학습한 방법들을 더 적은 라벨 데이터로도 종종 능가한다.
LaSS의 더 큰 모델(Large) 변종이 일반적으로 더 작은 대안보다 우수한 성능을 보이며 특히 WordNet 기반 작업에서 두드러진다.
LaSS는 시맨틱 설명과 구조적 신호를 모두 활용하여 KG 구조를 재구성하면서 시맨틱 일관성을 유지하는 측면에서 KG-BERT 및 전통적 구조만 활용하는 방법을 능가한다.
해당 분석은 LaSS가 어텐션 메커니즘과 구조 손실을 통해 시맨틱 관련성과 구조적 패턴을 포착하여 예측 성능을 향상시킨다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.