QUICK REVIEW

[論文レビュー] Leapfrog Triejoin: a worst-case optimal join algorithm

Todd L. Veldhuizen|arXiv (Cornell University)|Oct 1, 2012

Data Management and Algorithms参考文献 7被引用数 41

ひとこと要約

この論文は、ある対象の順序付けに基づく結合アルゴリズムであるLeapfrog Triejoinを紹介しており、これは最大計算量において対数要因を除いて最適な性能を達成し、特定のクエリクラスにおいて従来のNPRRアルゴリズムを上回っている。このアルゴリズムは、投影の基数に制約があるなどのより細かい複雑さのクラスに対しても最適であることを証明しており、簡潔な正しさと複雑さの証明を備えた、より単純で実用的な代替手段を提供する。

ABSTRACT

Recent years have seen exciting developments in join algorithms. In 2008, Atserias, Grohe and Marx (henceforth AGM) proved a tight bound on the maximum result size of a full conjunctive query, given constraints on the input relation sizes. In 2012, Ngo, Porat, R{é} and Rudra (henceforth NPRR) devised a join algorithm with worst-case running time proportional to the AGM bound. Our commercial Datalog system LogicBlox employs a novel join algorithm, \emph{leapfrog triejoin}, which compared conspicuously well to the NPRR algorithm in preliminary benchmarks. This spurred us to analyze the complexity of leapfrog triejoin. In this paper we establish that leapfrog triejoin is also worst-case optimal, up to a log factor, in the sense of NPRR. We improve on the results of NPRR by proving that leapfrog triejoin achieves worst-case optimality for finer-grained classes of database instances, such as those defined by constraints on projection cardinalities. We show that NPRR is \emph{not} worst-case optimal for such classes, giving a counterexample where leapfrog triejoin runs in $O(n \log n)$ time, compared to $Θ(n^{1.375})$ time for NPRR. On a practical note, leapfrog triejoin can be implemented using conventional data structures such as B-trees, and extends naturally to $\exists_1$ queries. We believe our algorithm offers a useful addition to the existing toolbox of join algorithms, being easy to absorb, simple to implement, and having a concise optimality proof.

研究の動機と目的

LogicBloxデータベースシステムで使用される新しい結合アルゴリズムであるLeapfrog Triejoinの最大計算量最適性を分析・証明すること。
投影の基数に制限があるような、より細かい粒度の複雑さのクラスのデータベースインスタンスにおいて、Leapfrog TriejoinがNPRRよりも優れた漸近的性能を達成することを示すこと。
NPRRの分析よりも簡潔で理解しやすい最適性証明を提供し、理論的および実用的アクセスのしやすさを高めること。
投影、否定、算術プリミティブなどの複雑なDatalog機能を扱えるようにアルゴリズムを拡張しながら、性能保証を維持すること。

提案手法

Leapfrog Triejoinは、指定された順序で変数を順番に束縛することで、満たされる代入を列挙するバックトラッキング探索を実行する。
ソート済みの関係に対するTrieイテレータを用い、属性を効率的にナビゲート・結合する。この際、飛躍法（leapfrog technique）を活用して関係のない値をスキップする。
中間結果の物的生成を回避し、一度の走査ですべての関係を同時に結合する。
変数の束縛に付随する遅延実行アクションを用いて、投影、否定、算術処理などの拡張を実現し、必要に応じてチェックや計算を実行する。
複雑さの分析には、分数的エッジカバー境界（Q*）をベンチマークとして用い、最大計算量がO(Q* log n)であることを証明する。
キーオーダリング最適化を用いたバージョンでは、対数要因を排除し、O(Q*)の時間計算量を達成する。

実験結果

リサーチクエスチョン

RQ1Leapfrog Triejoinは、NPRRと同程度のクエリクラスにおいて最大計算量最適であり、より細かい粒度の複雑さのクラス（例：投影基数が有界なインスタンス）においても優れた性能を発揮するか？
RQ2より単純で実用的な結合アルゴリズムが、NPRRと同等の理論的最適性を達成できるか、かつ実装や理解が容易か？
RQ3投影基数が有界なインスタンスにおいて、Leapfrog TriejoinはNPRRよりも漸近的に優れた計算量を達成するか？
RQ4否定、投影、算術処理などの複雑なDatalog機能を扱えるように拡張できるか、かつ最適性を損なわないか？

主な発見

Leapfrog Triejoinは最大計算量がO(Q* log n)であることを示しており、Q*は分数的エッジカバー境界である。これは、対数要因を除いて最大計算量最適であることを証明する。
投影基数が有界なインスタンスでは、Leapfrog TriejoinはO(n log n)時間で実行されるが、NPRRはΘ(n^1.375)時間で実行される。これは、漸近的に顕著な改善を示している。
Leapfrog Triejoinは、NPRRが最適に処理できない、投影サイズの制約があるインスタンスを含む、より広いクラスの問題インスタンスに対して最適である。
キーオーダリング最適化を用いたLeapfrog Triejoinの変種は、対数要因を排除し、O(Q*)の時間計算量を達成する。これはNPRRの理論的境界に一致する。
Bツリーなどの標準的なデータ構造を用いた実装が簡単で、∃₁クエリや複雑なDatalog機能への拡張も自然に行える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。