Skip to main content
QUICK REVIEW

[论文解读] A Formal Language Perspective on Factorized Representations

Benny Kimelfeld, Wim Martens|arXiv (Cornell University)|Sep 20, 2023
Formal Methods in Verification被引用 4
一句话总结

本文建立了无名因子化表示(uFRs)与上下文无关文法(CFGs)在等长语言上的形式同构关系,揭示了uFRs与所有生成词长度相同的CFGs等价。该联系使得形式语言理论中的复杂性结果可直接迁移至数据库因子化,包括uFRs、CFGs、NFAs、UFAs和DFAs之间大小权衡的紧致界,识别出在各种转换中存在指数级和双指数级膨胀。

ABSTRACT

Factorized representations (FRs) are a well-known tool to succinctly represent results of join queries and have been originally defined using the named database perspective. We define FRs in the unnamed database perspective and use them to establish several new connections. First, unnamed FRs can be exponentially more succinct than named FRs, but this difference can be alleviated by imposing a disjointness condition on columns. Conversely, named FRs can also be exponentially more succinct than unnamed FRs. Second, unnamed FRs are the same as (i.e., isomorphic to) context-free grammars for languages in which each word has the same length. This tight connection allows us to transfer a wide range of results on context-free grammars to database factorization; of which we offer a selection in the paper. Third, when we generalize unnamed FRs to arbitrary sets of tuples, they become a generalization of \emph{path multiset representations}, a formalism that was recently introduced to succinctly represent sets of paths in the context of graph database query evaluation.

研究动机与目标

  • 在无名(有序元组)数据库视角下形式化因子化表示,与标准的有名(无序属性)视角形成对比。
  • 在统一长度语言上,建立无名因子化表示(uFRs)与上下文无关文法(CFGs)之间的紧致同构关系。
  • 阐明uFRs与路径多重集表示(PMRs)之间的关系,表明当限制在有限且统一长度的路径集合时,PMRs是uFRs的一个特例。
  • 分析uFRs与其他紧凑表示(如NFAs、DFAs)之间的大小权衡,识别出在统一长度语言中uFRs与这些形式化系统之间转换时的指数级和双指数级膨胀。
  • 为图和关系查询处理中选择最优紧凑表示提供基础,特别是在支持正则路径查询和数据库上机器学习的系统中。

提出的方法

  • 将无名因子化表示(uFRs)定义为由数据值、并集和笛卡尔积构成的元组关系代数表达式,其中元组有序。
  • 在uFRs与一类仅生成等长词的上下文无关文法(CFGs)之间建立双射映射β。
  • 证明uFRs及其对应CFGs之间存在同构关系:uFR所表示的元组集合恰好是其对应CFG所生成语言的编码。
  • 利用该同构关系,将形式语言理论中的已知复杂性结果(如成员判定、等价性、计数、枚举)迁移至uFRs。
  • 分析uFRs与其他形式化系统(NFAs、UFAs、DFAs、集合)之间的转换,利用已知复杂性结果和猜想,推导出大小膨胀的紧致上下界。
  • 引入列之间的不相交性条件,以消除uFRs到有名FRs转换中的指数级膨胀,并表明该条件可实现更紧凑的表示。

实验结果

研究问题

  • RQ1无名因子化表示(uFRs)与有名因子化表示(nFRs)在大小上如何比较?在何种条件下一种表示会比另一种指数级更紧凑?
  • RQ2在统一长度语言上,uFRs与上下文无关文法(CFGs)之间的确切关系是什么?
  • RQ3uFRs与路径多重集表示(PMRs)之间有何关系?在何种意义上PMRs是uFRs的特例?
  • RQ4在有限且统一长度的语言上,uFRs与其他紧凑表示(如NFAs、UFAs、DFAs)之间的紧致大小膨胀是多少?
  • RQ5在这些形式化系统之间的转换中,何时会发生指数级或双指数级膨胀?这些界是否紧致?

主要发现

  • 无名因子化表示(uFRs)与仅生成统一长度语言的上下文无关文法(CFGs)之间存在紧致同构关系,意味着它们在表达能力和结构上等价。
  • uFRs与nFRs在大小上不可比较:双向均可能发生指数级膨胀,但若对列施加不相交性条件,则可消除uFR到nFR的膨胀。
  • 对应于uFRs的CFG类在限制为形如A → bC和A → b的规则时,与非确定性有限自动机(NFAs)同构,表明PMRs是uFRs的特例。
  • 在统一长度语言上,uFRs与NFAs、UFAs、DFAs之间存在指数级转换,其中若干转换为紧致(即无法避免膨胀)。
  • 从CFGs到UFA、UCFG和Set的转换存在双指数级膨胀,且在标准复杂性假设下(包括关于特定对称语言的无歧义CFG大小的猜想5.7)为紧致。
  • 本文提供了强有力的证据表明,从NFA到UCFG以及从CFG到UCFG的转换也是紧致的,前提是依赖于猜想5.7,该猜想假设对特定对称语言的无歧义CFG大小存在2Ω(n)的下界。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。