QUICK REVIEW

[논문 리뷰] The Vadalog System: Datalog-based Reasoning for Knowledge Graphs

Luigi Bellomarini, Georg Gottlob|arXiv (Cornell University)|2018. 07. 23.

Semantic Web and Ontologies참고 문헌 49인용 수 24

한 줄 요약

이 논문은 지식 그래프를 위한 순환 추론과 존재 기술을 지원하는 Datalog의 결정 가능 부분인 Warded Datalog+±의 첫 번째 구현체인 Vadalog을 제시한다. 고도로 최적화된 순환 제어 및 warded 포레스트 구조에 기반한 제한된 채즈 전략을 활용하여, Vadalog는 높은 성능과 낮은 메모리 사용량을 달성하며, 복잡한 추론 워크로드에서 기존 시스템을 능가한다.

ABSTRACT

Over the past years, there has been a resurgence of Datalog-based systems in the database community as well as in industry. In this context, it has been recognized that to handle the complex knowl\-edge-based scenarios encountered today, such as reasoning over large knowledge graphs, Datalog has to be extended with features such as existential quantification. Yet, Datalog-based reasoning in the presence of existential quantification is in general undecidable. Many efforts have been made to define decidable fragments. Warded Datalog+/- is a very promising one, as it captures PTIME complexity while allowing ontological reasoning. Yet so far, no implementation of Warded Datalog+/- was available. In this paper we present the Vadalog system, a Datalog-based system for performing complex logic reasoning tasks, such as those required in advanced knowledge graphs. The Vadalog system is Oxford's contribution to the VADA research programme, a joint effort of the universities of Oxford, Manchester and Edinburgh and around 20 industrial partners. As the main contribution of this paper, we illustrate the first implementation of Warded Datalog+/-, a high-performance Datalog+/- system utilizing an aggressive termination control strategy. We also provide a comprehensive experimental evaluation.

연구 동기 및 목표

Warded Datalog+±의 고성능이고 확장 가능한 구현체가 부족한 문제를 해결하기 위해, 서술적 추론과 순환을 지원하는 Datalog의 결정 가능 부분을 제공한다.
대규모 지식 그래프에서 존재 기술과 완전한 순환을 지원하면서도, PTIME 복잡도로 실행 가능한 추론을 가능하게 한다.
기존 시스템의 한계, 예를 들어 RDBMS 기반의 채즈 전략과 메모리 기반 처리 방식으로 인한 높은 오버헤드와 메모리 과다 사용 문제를 해결한다.
복잡한 룰 기반 추론과 다양한 데이터 소스 통합을 지원하는 실세계 지식 그래프 워크로드를 처리할 수 있는 시스템을 개발한다.
일반적인 지식 그래프 추론을 위한 프로덕션 수준의 확장 가능한 플랫폼을 제공하며, 향후 일관된 쿼리 응답 및 뷰 업데이트와 같은 기능 확장도 지원한다.

제안 방법

워드 포레스트 구조에 기반한 제한된 채즈 전략을 구현하여, 동형 사실의 효율적 탐지와 중복 룰 실행 방지를 가능하게 한다.
상향선형 포레스트 표현을 사용하여 동형 사실 패턴을 압축적으로 인코딩함으로써, 동일한 패턴을 하나의 구성 요소로 표현함으로써 메모리 사용량을 감소시킨다.
정지 증거와 구성 요소별 동형성 검사 기반의 강력한 종료 제어 전략을 통해 불필요한 채즈 단계를 방지한다.
RDBMS 기반 시스템과 달리, 호모모르피즘 검사를 SQL 쿼리로 변환하지 않아, 각 단계의 고비용 검사를 제거한다.
이론적으로 보장된 Warded Datalog+± 프ragment의 특성을 활용하여, 존재 기술이 포함된 순환 Datalog 룰을 네이티브로 지원하는 새로운 실행 엔진을 구축한다.
빅데이터 플랫폼과 API 등 다양한 데이터 소스와 통합 가능하며, 인크리멘탈 추론과 쿼리 최적화를 지원한다.

실험 결과

연구 질문

RQ1완전한 순환과 존재 기술을 지원하면서도 결정 가능성과 처리 가능한 데이터 복잡도를 보장하는 고성능, 확장 가능한 Datalog+± 시스템을 구현할 수 있는가?
RQ2Warded Datalog+±의 제한된 채즈 전략을 어떻게 최적화하여 실질적으로 메모리 사용량과 실행 오버헤드를 최소화할 수 있는가?
RQ3RDBMS 기반 또는 메모리 기반 시스템과 비교했을 때, 네이티브로 구현된 Warded Datalog+± 시스템이 복잡한 추론 워크로드에서 어떤 성능적 이점을 가지는가?
RQ4워드 포레스트 구조를 얼마나 효과적으로 활용하여 동형 사실을 탐지하고 중복된 룰 적용을 방지할 수 있는가?
RQ5실제 및 합성 벤치마크에서 복잡한 지식 그래프 추론 작업을 포함할 때, 시스템은 어떤 정도로 확장 가능한가?

주요 결과

Vadalog는 Warded Datalog+±의 첫 번째 프로덕션 수준의 구현체로, 지식 그래프에서 확장 가능하고 결정 가능한 추론을 위한 실용적인 솔루션을 제공한다.
ChaseFUN, DEMo, E, Pegasus와 같은 기존 시스템보다 뛰어난 성능을 보이며, 이는 순환 지원 부족 또는 비효율적 쿼리 재구성 또는 백엔드 의존성으로 인한 낮은 성능 탓이다.
SQL 기반 호모모르피즘 검사를 피하고 구성 요소별 동형성 탐지 기법을 사용함으로써, RDBMS 기반 시스템 대비 오버헤드와 메모리 사용량을 크게 감소시켰다.
패턴 구성 요소를 활용한 상향선형 포레스트의 사용은 수천 개의 동형 사실 집합을 압축적으로 표현할 수 있게 하여, 메모리 사용량을 단일 패턴 구성 요소로 줄였다.
실제 및 합성 벤치마크에서 경쟁적인 성능을 보이며, 시스템의 순환 제어 및 채즈 최적화 전략의 효과성을 입증했다.
다양한 데이터 소스와의 통합을 지원하며, 향후 일관된 쿼리 응답 및 뷰 업데이트와 같은 기능 확장도 가능하게 확장 가능한 아키텍처를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.