Skip to main content
QUICK REVIEW

[论文解读] Database Theory in Action: Cypher, GQL, and Regular Path Queries

Alin Deutsch, Nadime Francis|arXiv (Cornell University)|Dec 12, 2021
Semantic Web and Ontologies被引用 3
一句话总结

本文提出 GPML(图模式匹配语言),作为 GQL 和 SQL/PGQ 共享的核心查询语言标准,统一了 SQL 与原生图数据库中的属性图查询。它形式化了带变量的路径模式匹配、路径绑定以及多值感知聚合,实现了工业界与学术界系统间一致且标准化的图模式匹配。

ABSTRACT

As graph databases become widespread, JTC1 -- the committee in joint charge of information technology standards for the International Organization for Standardization (ISO), and International Electrotechnical Commission (IEC) -- has approved a project to create GQL, a standard property graph query language. This complements a project to extend SQL with a new part, SQL/PGQ, which specifies how to define graph views over an SQL tabular schema, and to run read-only queries against them. Both projects have been assigned to the ISO/IEC JTC1 SC32 working group for Database Languages, WG3, which continues to maintain and enhance SQL as a whole. This common responsibility helps enforce a policy that the identical core of both PGQ and GQL is a graph pattern matching sub-language, here termed GPML. The WG3 design process is also analyzed by an academic working group, part of the Linked Data Benchmark Council (LDBC), whose task is to produce a formal semantics of these graph data languages, which complements their standard specifications. This paper, written by members of WG3 and LDBC, presents the key elements of the GPML of SQL/PGQ and GQL in advance of the publication of these new standards.

研究动机与目标

  • 为 GQL 和 SQL/PGQ 定义一种通用的、标准化的图模式匹配语言(GPML),以确保属性图系统之间的互操作性。
  • 形式化 GPML 的语义,以支持在不同实现中精确且一致的查询评估。
  • 在单一规范下统一 GQL 和 SQL/PGQ 的核心查询语言,利用 ISO/IEC JTC1 SC32 WG3 的共享设计原则。
  • 解决尽管属性图数据库广泛采用,却缺乏标准属性图查询语言的问题。
  • 通过整合工业语言(如 Cypher 和 PGQL)中的路径绑定、聚合和环处理等特性,支持实际、现实世界的图工作负载。

提出的方法

  • 将 GPML 定义为 GQL 和 SQL/PGQ 的共享子语言,基于带路径变量和多值敏感聚合扩展的合取正则路径查询(CRPQs)。
  • 使用节点和边的变量绑定形式化路径模式匹配,支持路径级变量和属性访问。
  • 引入细粒度匹配语义,区分不同的路径绑定,并通过路径限制器(如简单路径、迹)支持过滤。
  • 以工业查询语言(如 Cypher、PGQL、GSQL)为设计基础,同时抽象出厂商特定的语法。
  • 利用 LDBC 学术工作组开发形式语义,以补充标准规范。
  • 通过统一核心 GPML 引擎逻辑,确保相同模式在 GQL 和 SQL/PGQ 中具有相同的评估行为。

实验结果

研究问题

  • RQ1如何设计一种通用图模式匹配语言,以统一 GQL 和 SQL/PGQ,同时保留其各自的应用场景?
  • RQ2需要何种形式语义,才能确保不同系统间路径模式评估的一致性与可预测性?
  • RQ3路径限制器(如简单路径、迹)如何影响图查询的计算复杂度与实际可用性?
  • RQ4来自现有工业语言(如 Cypher、PGQL)的哪些特性是 GPML 实现真实世界表达能力所必需的?
  • RQ5如何形式化定义路径级变量以及对路径的聚合,并将其整合进标准化查询语言?

主要发现

  • GPML 被正式定义为 GQL 和 SQL/PGQ 的共享核心,确保两种标准对路径模式的评估完全一致。
  • 该语言支持路径变量和多值感知聚合(如 count、sum、average),使查询比传统 CRPQ 更具表达力和语义精确性。
  • 通过精心设计,路径限制器(如 'simple path' 和 'trail')被重新引入并赋予形式语义,解决了以往对高计算复杂度的担忧。
  • LDBC 学术小组开发的形式语义为规范性标准提供了严谨基础,与 GQL 和 SQL/PGQ 的规范性规格相辅相成。
  • GPML 在两种标准中的集成确保,无论在原生图数据库(GQL)还是基于 SQL 的图视图(SQL/PGQ)中执行,同一查询都将产生完全相同的结果。
  • 该设计在表达力与性能之间取得良好平衡,支持复杂图模式,同时通过受控的路径枚举避免了非终止问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。