Skip to main content
QUICK REVIEW

[논문 리뷰] Analysis of the Impact of Negative Sampling on Link Prediction in Knowledge Graphs

Bhushan Kotnis, Vivi Năstase|arXiv (Cornell University)|2017. 08. 22.
Advanced Graph Neural Networks참고 문헌 28인용 수 63
한 줄 요약

이 논문은 FB15k와 WN18에서 네 가지 KG 임베딩 모델(ComplEx, DistMult, Rescal, TransE)에 걸쳐 서로 다른 음의 샘플링 전략이 링크 예측 정확도에 미치는 영향을 경험적으로 연구하고, 두 가지 새로운 샘플링 방법을 제안하며 데이터셋 의존적 효과를 보여준다.

ABSTRACT

Knowledge graphs are large, useful, but incomplete knowledge repositories. They encode knowledge through entities and relations which define each other through the connective structure of the graph. This has inspired methods for the joint embedding of entities and relations in continuous low-dimensional vector spaces, that can be used to induce new edges in the graph, i.e., link prediction in knowledge graphs. Learning these representations relies on contrasting positive instances with negative ones. Knowledge graphs include only positive relation instances, leaving the door open for a variety of methods for selecting negative examples. In this paper we present an empirical study on the impact of negative sampling on the learned embeddings, assessed through the task of link prediction. We use state-of-the-art knowledge graph embeddings -- escal , TransE, DistMult and ComplEX -- and evaluate on benchmark datasets -- FB15k and WN18. We compare well known methods for negative sampling and additionally propose embedding based sampling methods. We note a marked difference in the impact of these sampling methods on the two datasets, with the "traditional" corrupting positives method leading to best results on WN18, while embedding based methods benefiting the task on FB15k.

연구 동기 및 목표

  • 음의 샘플링 선택이 KG 임베딩의 링크 예측 품질에 미치는 영향에 대해 동기를 부여하고 이해한다.
  • 다양한 음의 샘플링 체계에서 최첨단 임베딩 모델을 비교한다.
  • 두 가지 새로운 음의 샘플링 전략을 제안하고 그 효과를 평가한다.
  • FB15k 대 WN18의 데이터셋 특성이 방법의 성능에 어떤 영향을 주는지 평가한다.
  • 주어진 KG와 모델에 대해 음의 샘플링 전략 선택에 대한 가이드를 제공한다.

제안 방법

  • PyTorch에서 공유 최대-마진 손실 및 단위-노름 제약을 가진 Rescal, TransE, DistMult, ComplEx를 재구현했다.
  • 다음의 여러 음의 샘플링 방식을 평가했다: Random, Corrupting positives, Typed, Relational, Nearest Neighbor, Near Miss, 그리고 사전 학습된 임베딩 기반 샘플러.
  • 두 가지 새로운 샘플링 방법(Nearest Neighbor와 Near Miss)을 도입하여 어려운 음수 샘플을 생성하기 위해 사전 학습된 음수 샘플링 모델을 사용했다.
  • FB15k와 WN18를 포함한 데이터셋별 학습 설정을 사용하고 그리드 탐색 및 조기 중단을 통한 하이퍼파라미터 튜닝을 수행했다.
  • MRR 및 Hits@K(Hits@10 for FB15k, Hits@1 for WN18)으로 성능을 평가했다.
  • 최대-마진 손실을 사용한 이전 연구와의 비교 및 성능 차이를 설명하기 위해 관계-빈도 분할(OOM)을 분석했다.

실험 결과

연구 질문

  • RQ1다른 음의 샘플링 전략이 KG 임베딩 모델 전반에서 연결 예측 성능에 어떤 영향을 미치는가?
  • RQ2데이터셋 특성(FB15k 대 WN18)이 어떤 음의 샘플링 방법이 가장 효과적인지에 영향을 주는가?
  • RQ3새로 제안된 샘플링 방법(Nearest Neighbor, Near Miss)이 이 데이터셋에서 전통적인 긍정 샘플링 파괴(Corrupting positives)보다 더 나은가?
  • RQ4모델 유형과 데이터 희소성이 음의 샘플링 선택과 상호 작용하여 MRR 및 Hits@K에 어떤 영향을 미치는가?
  • RQ5KG의 속성과 선택한 임베딩 모델에 따라 음의 샘플링 방법을 선택하기 위한 가이드라인은 무엇인가?

주요 결과

모델음의 샘플링MRRHITS@10
DistMultNear Miss (FB15k)0.4670.64
RescalNear Miss (FB15k)0.4264.34
TransENear Miss (FB15k)0.3762.97
DistMultCorrupt (WN18)0.8294.06
RescalCorrupt (WN18)0.9293.91
TransECorrupt (WN18)0.4086.98
  • Near Miss 샘플링은 여러 모델에서 FB15k에서 일반적으로 강한 성능을 보인다.
  • 임베딩 기반 샘플링 방법(Nearest Neighbor, Near Miss)은 FB15k에서 특히 효과적이며 데이터 희소성 문제를 완화하는 데 도움이 된다.
  • 긍정 예제 파괴(Corrupting positives)는 WN18에서 특히 Rescal과 함께 가장 잘 작동하며, 무작위 샘플링은 일부 모델(예: TransE)에서 경쟁력이 있다.
  • TransE는 1:1 관계 가정으로 인해 무작위 음수에서 이익을 얻는 반면, 다른 모델들은 더 어려운 음수에서 이익을 얻는다.
  • FB15k는 많은 관계가 적은 예시를 갖는 데이터 희소성으로 인해 파괴 샘플링의 효과가 감소하는 반면, WN18의 촘촘한 내재 관계는 파괴 기반 음수에 우호적이다.
  • 전반적으로 최적의 음의 샘플링 전략은 데이터셋 및 모델에 따라 다르며, Freebase와 유사한 데이터에서 Near Miss/Nearest Neighbor가 잘 작동하고 WordNet에서 파괴가 우수한 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.