Skip to main content
QUICK REVIEW

[논문 리뷰] Query2box: Reasoning over Knowledge Graphs in Vector Space using Box Embeddings

Hongyu Ren, Weihua Hu|arXiv (Cornell University)|2020. 02. 14.
Advanced Graph Neural Networks참고 문헌 33인용 수 81
한 줄 요약

Query2box는 대규모 불완전한 지식 그래프(KG)에서 존재 양의 퍼스트오더(EPFO) 쿼리를 답하기 위해 벡터 공간에 상자(box)로 쿼리들을 임베딩하고, DNF을 사용해 OR를 처리하며 기저선 대비 최대 25% 상대 개선을 달성합니다.

ABSTRACT

Answering complex logical queries on large-scale incomplete knowledge graphs (KGs) is a fundamental yet challenging task. Recently, a promising approach to this problem has been to embed KG entities as well as the query into a vector space such that entities that answer the query are embedded close to the query. However, prior work models queries as single points in the vector space, which is problematic because a complex query represents a potentially large set of its answer entities, but it is unclear how such a set can be represented as a single point. Furthermore, prior work can only handle queries that use conjunctions ($\\wedge$) and existential quantifiers ($\\exists$). Handling queries with logical disjunctions ($\\vee$) remains an open problem. Here we propose query2box, an embedding-based framework for reasoning over arbitrary queries with $\\wedge$, $\\vee$, and $\\exists$ operators in massive and incomplete KGs. Our main insight is that queries can be embedded as boxes (i.e., hyper-rectangles), where a set of points inside the box corresponds to a set of answer entities of the query. We show that conjunctions can be naturally represented as intersections of boxes and also prove a negative result that handling disjunctions would require embedding with dimension proportional to the number of KG entities. However, we show that by transforming queries into a Disjunctive Normal Form, query2box is capable of handling arbitrary logical queries with $\\wedge$, $\\vee$, $\\exists$ in a scalable manner. We demonstrate the effectiveness of query2box on three large KGs and show that query2box achieves up to 25% relative improvement over the state of the art.

연구 동기 및 목표

  • 결합 쿼리를 넘는 복잡하고 불완전한 KG 쿼리에 답해야 할 필요성을 제시한다.
  • 정답 엔티티를 둘러싸는 영역으로 쿼리 의의를 표현하기 위한 상자 임베딩을 도입한다.
  • EPFO 쿼리에서 OR를 합리적으로 처리하기 위한 DNF 기반 접근법을 개발한다.
  • 상자에 대한 기하학적 연산자(투영과 교집합)를 정의하고 거리 기반 학습 목표를 정의한다.
  • 최첨단 기준선과 비교하여 대규모 KB 벤치마크에서 확장성과 정확도 향상을 시演한다.

제안 방법

  • KG 엔티티를 벡터로 임베딩하고 쿼리를 R^d의 축 정렬 상자로 임베딩한다.
  • 투영은 관계 r에 대해 상자_Box_p의 평행이동 및 확대(확장)로 정의한다: Box_p + r.
  • 교집합은 학습 가능한 주의(attention) 가이드된 상자 축소로 모델링하는 것으로 정의한다.
  • dist_box(v; q)를 상자 외부 및 내부 거리의 가중 혼합으로 모델링하여 엔티티를 순위화한다.
  • 음수 샘플링과 여백 기반 손실(margin-based loss)을 사용하여 실제 답이 음수보다 더 가까워지도록 학습한다.
  • EPFO 쿼리를 DNFs로 변환하여 합집합을 처리하고, 여러 합성 쿼리를 해결한 후 최소 거리 규칙으로 결과를 집계한다.
  • 합 conjunctive 쿼리들에 걸친 거리 합산: dist_agg(v; q) = min(dist_box(v; q^(i))) 모든 CNF 구성요소에 대해.
  • 상자 연산을 상수 시간에 제공하고 병렬 가능 평가로 확장성을 제공하며, 검색을 위한 NN 기반 최근접 이웃 탐색을 사용한다.

실험 결과

연구 질문

  • RQ1복잡한 EPFO 쿼리를 박스로 저차원 벡터 공간에서 표현하고 이성적으로 추론할 수 있는가?
  • RQ2차원이 폭발하지 않으면서 상자 임베딩 내에서 OR(교집합?) disjunction을 합리적으로 다루려면 어떻게 해야 하는가?
  • RQ3EPFO 쿼리를 DNFs로 변환하는 것이 대규모의 불완전한 KG에서 정확하고 확장 가능한 쿼리 응답을 가능하게 하는가?
  • RQ4표준 KG 벤치마크에서 최첨단 기준선과 비교하여 Query2box가 제공하는 정확도 향상 및 일반화 능력은 어느 정도인가?

주요 결과

  • Query2box는 EPFO 쿼리 응답 작업에서 강력한 기준선 대비 최대 25% 상대 개선을 달성한다.
  • 상자 임베딩은 자연스럽게 정답 집합을 모델링하고 DNFs를 통한 conjunction과 disjunction의 닫힌 형식 구성을 허용한다.
  • EPFO 쿼리를 DNFs로 변환하면 표현력을 유지하면서 저차원 공간에서 합리적 추론이 가능해진다.
  • Query2box는 보지 못한 쿼리 구조에 대한 강한 일반화와 누락된 관계의 암시적 처리를 입증한다.
  • FB15k, FB15k-237, NELL995 실험에서 복잡한 쿼리 구조(예: 2p, 3p, 2i, 3i, ip, pi, 2u, up)가 기준선 대비 더 나은 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.