QUICK REVIEW

[論文レビュー] The Vadalog System: Datalog-based Reasoning for Knowledge Graphs

Luigi Bellomarini, Georg Gottlob|arXiv (Cornell University)|Jul 23, 2018

Semantic Web and Ontologies参考文献 49被引用数 24

ひとこと要約

本稿では、知識グラフにおける再帰的推論と存在記号化をサポートする、決定的であるDatalogの断片であるWarded Datalog+±の最初の実装であるVadalogを提示する。高度な再帰制御と、ワードフォレスト構造に基づく制限付きチェース戦略を活用することで、Vadalogは高い性能と低いメモリ使用量を実現し、複雑な推論ワークロードにおいて既存のシステムを上回っている。

ABSTRACT

Over the past years, there has been a resurgence of Datalog-based systems in the database community as well as in industry. In this context, it has been recognized that to handle the complex knowl\-edge-based scenarios encountered today, such as reasoning over large knowledge graphs, Datalog has to be extended with features such as existential quantification. Yet, Datalog-based reasoning in the presence of existential quantification is in general undecidable. Many efforts have been made to define decidable fragments. Warded Datalog+/- is a very promising one, as it captures PTIME complexity while allowing ontological reasoning. Yet so far, no implementation of Warded Datalog+/- was available. In this paper we present the Vadalog system, a Datalog-based system for performing complex logic reasoning tasks, such as those required in advanced knowledge graphs. The Vadalog system is Oxford's contribution to the VADA research programme, a joint effort of the universities of Oxford, Manchester and Edinburgh and around 20 industrial partners. As the main contribution of this paper, we illustrate the first implementation of Warded Datalog+/-, a high-performance Datalog+/- system utilizing an aggressive termination control strategy. We also provide a comprehensive experimental evaluation.

研究の動機と目的

Warded Datalog+±の高パフォーマンスでスケーラブルな実装が不足しているという問題に取り組むこと。Warded Datalog+±は、オントロジー的推論と再帰をサポートする決定的断片である。
大規模な知識グラフにおいて、存在記号化と完全な再帰を伴う、 tractable（扱いやすい）でPTIME複雑性の推論を実現すること。
RDBMSのバックエンドによるチェースやメモリ内処理といった既存システムの制限を克服すること。これらは高いオーバーヘッドとメモリの肥大化を引き起こす。
複雑なルールベース推論と多様なデータソースとの統合を含む、実世界の知識グラフワークロードをサポートするシステムを開発すること。
今後の拡張機能（一貫性のあるクエリ応答やビュー更新など）をサポートする、本番環境で利用可能な拡張性のあるプラットフォームを提供すること。

提案手法

ワードフォレスト構造に基づく制限付きチェース戦略を実装し、同型の事実の効率的検出と、不要なルール発火の防止を可能にする。
同型の事実パターンをコンactに表現するためのリフトド・ラインアーフォレスト表現を採用し、複数の同型コンポーネントを1つのパターンで表現することで、メモリ使用量を削減する。
停止プロヴェナンスとコンポーネント単位の同型性チェックを用いた、積極的な終了制御をアーキテクチャに組み込むことで、不要なチェースステップを回避する。
RDBMSバックエンドのシステムとは異なり、単体のホモモルフィズムチェックをSQLクエリに変換しない。これにより、各ステップの高コストなチェックを排除する。
Warded Datalog+±断片の理論的保証を活用し、ネイティブに再帰的Datalogルールと存在記号化をサポートする、新規な実行エンジンを構築する。
Big DataプラットフォームやAPIなど、さまざまなデータソースと統合可能であり、インクリメンタル推論とクエリ最適化をサポートする。

実験結果

リサーチクエスチョン

RQ1完全な再帰と存在記号化をサポートしながら、決定性と扱いやすいデータ複雑性を保証する高パフォーマンスでスケーラブルなDatalog+±システムを実装できるか？
RQ2Warded Datalog+±における制限付きチェース戦略を、実際のメモリ使用量と実行オーバーヘッドを最小限に抑えるように最適化できるか？
RQ3RDBMSバックエンドやメモリ内システムと比較して、ネイティブ実装のWarded Datalog+±が複雑な推論ワークロードでどのようなパフォーマンス優位性を示すか？
RQ4ワードフォレスト構造をどの程度活用して同型の事実を検出し、不要なルール適用を防止できるか？
RQ5複雑な知識グラフ推論タスクを含む、実世界および合成ベンチマークにおいて、システムはどの程度スケーリングするか？

主な発見

Vadalogは、知識グラフにおけるスケーラブルで決定的である推論の実用的解決策を提供する、Warded Datalog+±の最初の本番環境対応実装である。
チェスファン、デモ、E、ペガサスといった既存システムよりも優れたパフォーマンスを示す。これらは再帰サポートが欠如しているか、非効率なクエリ再定式化やバックエンド依存により、性能が著しく劣っている。
SQLベースのホモモルフィズムチェックを回避し、コンポーネント単位の同型性検出を採用することで、RDBMSバックエンドシステムと比較して、オーバーヘッドとメモリ使用量を顕著に削減する。
リフトド・ラインアーフォレストとパターンコンポーネントを用いることで、同型事実の集合をコンパクトに表現でき、数千件の事実に対しても1つのパターンコンポーネントにまでメモリ使用量を削減できる。
実世界および合成ベンチマークの両方で、競争力のあるパフォーマンスを示しており、再帰制御とチェース最適化戦略の有効性を確認している。
Vadalogは多様なデータソースとの統合をサポートしており、今後の拡張（一貫性のあるクエリ応答、ビュー更新など）に対しても拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。