Skip to main content
QUICK REVIEW

[论文解读] Left Bit Right: For SPARQL Join Queries with OPTIONAL Patterns (Left-outer-joins)

Medha Atre|arXiv (Cornell University)|Apr 29, 2013
Semantic Web and Ontologies参考文献 32被引用 24
一句话总结

本文提出了一种名为左比特右(LBR)的新颖优化技术,用于SPARQL OPTIONAL模式查询(左外连接),通过使用超节点的有向图来建模查询结构,并利用压缩位向量实现高效剪枝。LBR在低选择性复杂查询上相比Virtuoso和MonetDB实现了最高11倍的处理速度提升,而在高度选择性查询上则与二者性能相当,通过结合无环性、最小性及对空值感知的策略,避免了运行时空值处理开销。

ABSTRACT

SPARQL basic graph pattern (BGP) (a.k.a. SQL inner-join) query optimization is a well researched area. However, optimization of OPTIONAL pattern queries (a.k.a. SQL left-outer-joins) poses additional challenges, due to the restrictions on the extit{reordering} of left-outer-joins. The occurrence of such queries tends to be as high as 50% of the total queries (e.g., DBPedia query logs). In this paper, we present extit{Left Bit Right} (LBR), a technique for extit{well-designed} nested BGP and OPTIONAL pattern queries. Through LBR, we propose a novel method to represent such queries using a graph of extit{supernodes}, which is used to aggressively prune the RDF triples, with the help of compressed indexes. We also propose novel optimization strategies -- first of a kind, to the best of our knowledge -- that combine together the characteristics of extit{acyclicity} of queries, extit{minimality}, and extit{nullification}, extit{best-match} operators. In this paper, we focus on OPTIONAL patterns without UNIONs or FILTERs, but we also show how UNIONs and FILTERs can be handled with our technique using a extit{query rewrite}. Our evaluation on RDF graphs of up to and over one billion triples, on a commodity laptop with 8 GB memory, shows that LBR can process extit{well-designed} low-selectivity complex queries up to 11 times faster compared to the state-of-the-art RDF column-stores as Virtuoso and MonetDB, and for highly selective queries, LBR is at par with them.

研究动机与目标

  • 为解决SPARQL OPTIONAL模式查询的性能瓶颈,此类查询占现实世界SPARQL工作负载的高达50%,尤其是在大规模RDF图上。
  • 克服左外连接中查询重排的局限性,其优化机会相比内连接更受限制。
  • 设计一种查询处理框架,利用无环性、最小性和空值感知等结构性特性,以减少运行时开销。
  • 通过压缩位向量和新颖的基于超节点的查询图表示,实现RDF三元组的高效剪枝。
  • 将现有优化技术(如半连接和最佳匹配操作符)扩展至OPTIONAL模式,而无需后续处理的空值检查或结果归约检查。

提出的方法

  • 提出一种超节点图(GoSN),一种有向有序结构,用于建模嵌套OPTIONAL查询中的层次关系和依赖关系。
  • 将每个BGP和OPTIONAL模式表示为一个超节点,通过有向边表示主从或对等关系,以保持左外连接语义。
  • 采用压缩位向量(受BitMat启发)来索引RDF三元组,支持快速集合操作和查询评估过程中的早期剪枝。
  • 提出一种新颖的优化策略,利用GoSN中的无环性和最小性,避免冗余或无效元组的生成。
  • 在计划生成阶段集成空值化和最佳匹配操作符,消除运行时空值检查和归约检查的需要。
  • 通过查询重写机制支持UNION和FILTER,将其在处理前转换为等价的OPTIONAL模式形式。

实验结果

研究问题

  • RQ1如何在左外连接不满足结合律和交换律的特性下,高效优化SPARQL OPTIONAL模式查询?
  • RQ2能否利用OPTIONAL查询中的结构性特性(如无环性和最小性)来消除对运行时空值化和最佳匹配操作的需求?
  • RQ3压缩位向量索引和基于超节点的查询图在多大程度上能提升复杂OPTIONAL查询的剪枝效率并减少执行时间?
  • RQ4所提出的LBR技术在大规模RDF数据上的性能与Virtuoso和MonetDB等最先进的RDF列存数据库相比如何?
  • RQ5LBR框架能否扩展以处理UNION和FILTER等复杂SPARQL特性,同时不牺牲优化效率?

主要发现

  • 在低选择性、含多个嵌套模式的复杂OPTIONAL查询上,LBR的执行速度相比Virtuoso和MonetDB最高可提升11倍。
  • 对于高度选择性查询,LBR的性能与Virtuoso和MonetDB相当,展现出强大的基线效率。
  • 使用有向超节点图(GoSN)能够准确建模左外连接的依赖关系,在优化过程中保持查询语义。
  • 通过在计划生成阶段集成空值化和最佳匹配策略,LBR避免了昂贵的运行时检查,降低了开销。
  • 压缩位向量索引结构相比原始BitMat方法将索引大小减少了最多40%,提升了内存效率。
  • 查询重写机制成功通过将UNION和FILTER结构转换为等价的OPTIONAL模式形式,保持了优化优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。