[논문 리뷰] QUERY2BOX: REASONING OVER KNOWLEDGE GRAPHS IN VECTOR SPACE USING BOX EMBEDDINGS
Query2box는 벡터 공간에서 쿼리를 상자(box)로 표현하여 크고 불완전한 KG에 대한 임의의 EPFO 쿼리를 처리하고, EPFO 쿼리를 conjunctive queries의 DNFs로 변환하고 결과를 집계함으로써 baselines 대비 최대 25%의 상대 향상을 달성한다.
Answering complex logical queries on large-scale incomplete knowledge graphs (KGs) is a fundamental yet challenging task. Recently, a promising approach to this problem has been to embed KG entities as well as the query into a vector space such that entities that answer the query are embedded close to the query. However, prior work models queries as single points in the vector space, which is problematic because a complex query represents a potentially large set of its answer entities, but it is unclear how such a set can be represented as a single point. Furthermore, prior work can only handle queries that use conjunctions ($\wedge$) and existential quantifiers ($\exists$). Handling queries with logical disjunctions ($\vee$) remains an open problem. Here we propose query2box, an embedding-based framework for reasoning over arbitrary queries with $\wedge$, $\vee$, and $\exists$ operators in massive and incomplete KGs. Our main insight is that queries can be embedded as boxes (i.e., hyper-rectangles), where a set of points inside the box corresponds to a set of answer entities of the query. We show that conjunctions can be naturally represented as intersections of boxes and also prove a negative result that handling disjunctions would require embedding with dimension proportional to the number of KG entities. However, we show that by transforming queries into a Disjunctive Normal Form, query2box is capable of handling arbitrary logical queries with $\wedge$, $\vee$, $\exists$ in a scalable manner. We demonstrate the effectiveness of query2box on three large KGs and show that query2box achieves up to 25% relative improvement over the state of the art.
연구 동기 및 목표
- 표현력이 풍부한 EPFO 쿼리를 사용해 크고 불완전한 KG에 대한 확장 가능한 추론을 고무시키는 것.
- 단일 점 대신 상자 임베딩으로 정답 엔티티 집합을 모델링한다.
- EPFO 쿼리를 conjunctive queries의 DNF로 변환하여 disjunction(또는 조건의 처리)을 가능하게 한다.
- 상자에 대한 투영(projection)와 교차(intersection)를 학습 가능한 기하 연산자로 훈련시킨다.
- 강한 일반화 및 누락 관계 임퓨테이션 능력을 입증한다.
제안 방법
- KG 엔티티를 R^d의 점으로 임베딩하고 쿼리를 R^d의 축 정렬 상자로 표현한다.
- 각 관계를 쿼리 상자를 변환하고 확장시키는 상자 임베딩 연산자와 연결한다(투영).
- 입력 상자들에 대한 주의를 사용하여 상자를 축소하고 중심화하는 기하학적 교차 연산자를 정의한다.
- 엔티티와 쿼리 사이의 거리를 dist_box로 모델링하되 dist_outside와 dist_inside를 가중치 α로 결합한다.
- 정답 엔티티를 최종 상자 내부로 밀어넣고 음성 샘플을 바깥으로 배치하는 부정 샘플링 목적 함수로 학습한다.
- EPFO 쿼리를 conjunctive queries의 DNF로 변환하고 합성 질의의 결과를 집계함으로써 disjunction을 처리한다.
실험 결과
연구 질문
- RQ1EPFO 쿼리가 저차원 박스 임베딩 공간에서 효과적으로 답변될 수 있는가?
- RQ2합집합/교집합 및 존재 연산자를 기하학적 박스 연산으로 어떻게 표현할 수 있는가?
- RQ3EPFO 쿼리를 DNFs로 변환하는 것이 크고 불완전한 KG에 대한 확장 가능한 추론을 가능하게 하는가?
- RQ4복잡한 질의 구조에서 query2box가 최첨단-baselines에 비해 어떤 성능을 보이는가?
- RQ5모델이 보이지 않는 쿼리 구조에 대해 일반화하고 누락된 관계를 임퓨트할 수 있는가?
주요 결과
| 데이터셋 | 평균 | 1p | 2p | 3p | 2i | 3i | ip | pi | 2u | up | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| FB15k | q2b | 0.484 | 0.786 | 0.413 | 0.303 | 0.593 | 0.712 | 0.211 | 0.397 | 0.608 | 0.330 |
| FB15k-237 | q2b | 0.268 | 0.467 | 0.240 | 0.186 | 0.324 | 0.453 | 0.108 | 0.205 | 0.239 | 0.193 |
| NELL995 | q2b | 0.306 | 0.555 | 0.266 | 0.233 | 0.343 | 0.480 | 0.132 | 0.212 | 0.369 | 0.163 |
- Query2box는 EPFO 쿼리 응답 작업에서 baselines에 비해 최대 25%의 상대 향상을 달성한다.
- 박스 임베딩은 투영과 교차를 통한 질의-답변 집합의 자연스러운 모델링과 닫힌 연산을 가능하게 한다.
- DNF 변환은 지수 차원을 필요로 하지 않고 disjunction의 확장 가능한 처리를 가능하게 한다.
- 보이지 않은 쿼리 구조에 대한 강한 일반화와 암시적 누락 관계 임퓨테이션이 관찰된다.
- FB15k, FB15k-237, 및 NELL995에 대한 실험은 gqe baselines보다 복잡한 쿼리 구조에서 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.