[论文解读] Database Theory in Action: Cypher, GQL, and Regular Path Queries
本文提出 GPML(图模式匹配语言),作为 GQL 和 SQL/PGQ 共享的核心查询语言标准,统一了 SQL 与原生图数据库中的属性图查询。它形式化了带变量的路径模式匹配、路径绑定以及多值感知聚合,实现了工业界与学术界系统间一致且标准化的图模式匹配。
As graph databases become widespread, JTC1 -- the committee in joint charge of information technology standards for the International Organization for Standardization (ISO), and International Electrotechnical Commission (IEC) -- has approved a project to create GQL, a standard property graph query language. This complements a project to extend SQL with a new part, SQL/PGQ, which specifies how to define graph views over an SQL tabular schema, and to run read-only queries against them. Both projects have been assigned to the ISO/IEC JTC1 SC32 working group for Database Languages, WG3, which continues to maintain and enhance SQL as a whole. This common responsibility helps enforce a policy that the identical core of both PGQ and GQL is a graph pattern matching sub-language, here termed GPML. The WG3 design process is also analyzed by an academic working group, part of the Linked Data Benchmark Council (LDBC), whose task is to produce a formal semantics of these graph data languages, which complements their standard specifications. This paper, written by members of WG3 and LDBC, presents the key elements of the GPML of SQL/PGQ and GQL in advance of the publication of these new standards.
研究动机与目标
- 为 GQL 和 SQL/PGQ 定义一种通用的、标准化的图模式匹配语言(GPML),以确保属性图系统之间的互操作性。
- 形式化 GPML 的语义,以支持在不同实现中精确且一致的查询评估。
- 在单一规范下统一 GQL 和 SQL/PGQ 的核心查询语言,利用 ISO/IEC JTC1 SC32 WG3 的共享设计原则。
- 解决尽管属性图数据库广泛采用,却缺乏标准属性图查询语言的问题。
- 通过整合工业语言(如 Cypher 和 PGQL)中的路径绑定、聚合和环处理等特性,支持实际、现实世界的图工作负载。
提出的方法
- 将 GPML 定义为 GQL 和 SQL/PGQ 的共享子语言,基于带路径变量和多值敏感聚合扩展的合取正则路径查询(CRPQs)。
- 使用节点和边的变量绑定形式化路径模式匹配,支持路径级变量和属性访问。
- 引入细粒度匹配语义,区分不同的路径绑定,并通过路径限制器(如简单路径、迹)支持过滤。
- 以工业查询语言(如 Cypher、PGQL、GSQL)为设计基础,同时抽象出厂商特定的语法。
- 利用 LDBC 学术工作组开发形式语义,以补充标准规范。
- 通过统一核心 GPML 引擎逻辑,确保相同模式在 GQL 和 SQL/PGQ 中具有相同的评估行为。
实验结果
研究问题
- RQ1如何设计一种通用图模式匹配语言,以统一 GQL 和 SQL/PGQ,同时保留其各自的应用场景?
- RQ2需要何种形式语义,才能确保不同系统间路径模式评估的一致性与可预测性?
- RQ3路径限制器(如简单路径、迹)如何影响图查询的计算复杂度与实际可用性?
- RQ4来自现有工业语言(如 Cypher、PGQL)的哪些特性是 GPML 实现真实世界表达能力所必需的?
- RQ5如何形式化定义路径级变量以及对路径的聚合,并将其整合进标准化查询语言?
主要发现
- GPML 被正式定义为 GQL 和 SQL/PGQ 的共享核心,确保两种标准对路径模式的评估完全一致。
- 该语言支持路径变量和多值感知聚合(如 count、sum、average),使查询比传统 CRPQ 更具表达力和语义精确性。
- 通过精心设计,路径限制器(如 'simple path' 和 'trail')被重新引入并赋予形式语义,解决了以往对高计算复杂度的担忧。
- LDBC 学术小组开发的形式语义为规范性标准提供了严谨基础,与 GQL 和 SQL/PGQ 的规范性规格相辅相成。
- GPML 在两种标准中的集成确保,无论在原生图数据库(GQL)还是基于 SQL 的图视图(SQL/PGQ)中执行,同一查询都将产生完全相同的结果。
- 该设计在表达力与性能之间取得良好平衡,支持复杂图模式,同时通过受控的路径枚举避免了非终止问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。