Skip to main content
QUICK REVIEW

[論文レビュー] Streaming Enumeration on Nested Documents

Martı́n Muñoz, Cristian Riveros|arXiv (Cornell University)|Oct 12, 2020
Advanced Database Systems and Queries被引用数 7
ひとこと要約

この論文は、XML や JSON などのネストされたドキュメントに対するクエリのストリーミング列挙アルゴリズムを提示する。Visibly Pushdown Transducers (VPT) を用い、入力に対して1回のパス走破後、定数遅延列挙を達成する。アルゴリズムは、最悪ケースで最適な更新時間とメモリ使用量を保証し、I/O-非一意な VPT に対して最適な性能を示し、決定化を用いることですべての VPT へ拡張可能である。

ABSTRACT

Some of the most relevant document schemas used online, such as XML and JSON, have a nested format. In the last decade, the task of extracting data from nested documents over streams has become especially relevant. We focus on the streaming evaluation of queries with outputs of varied sizes over nested documents. We model queries of this kind as Visibly Pushdown Transducers (VPT), a computational model that extends visibly pushdown automata with outputs and has the same expressive power as MSO over nested documents. Since processing a document through a VPT can generate a massive number of results, we are interested in reading the input in a streaming fashion and enumerating the outputs one after another as efficiently as possible, namely, with constant-delay. This paper presents an algorithm that enumerates these elements with constant-delay after processing the document stream in a single pass. Furthermore, we show that this algorithm is worst-case optimal in terms of update-time per symbol and memory usage.

研究の動機と目的

  • ネストされたドキュメント(XML や JSON など)に対するクエリの効率的でストリーミングな評価を可能にし、最小限のメモリと出力間の定数遅延を実現すること。
  • 入力を1回のパスで処理し、ドキュメント全体を保存せずに、潜在的に巨大な出力集合を列挙する課題に対処すること。
  • 更新時間とメモリ使用量に関する理論的保証を提供し、提案されたアルゴリズムの最悪ケース最適性を示すこと。
  • MSO論理がネストされたデータ上で表現可能な表現力を持つ、Visibly Pushdown Transducers (VPT) の広いクラスへ定数遅延列挙を拡張すること。
  • XPath や XQuery などのクエリ言語やドキュメントスパンナとの統合を通じて、実用的応用の可能性を示すこと。

提案手法

  • クエリを Visibly Pushdown Transducers (VPT) としてモデル化し、可視プッシュダウンオートマトンに出力機能を拡張したもので、ネストされたドキュメント上の MSO 論理の表現力を捉えている。
  • 入力ストリームを1回のパスで処理し、出力列挙を効率的に行うために、関連する状態と変数のキャプチャを追跡するコンactなデータ構造を維持する。
  • 非一意でない VPT の場合、定数遅延列挙を可能にするために、有効なパスに沿った変数キャプチャのマージを実行する導出トランダーサー T_G を構築する。
  • v-パス(キャプチャ変数ラベル付きの遷移列)に対するマージ操作を用い、出力集合をコンactに表現し、効率的な列挙を可能にする。
  • 更新時間の複雑さが O(|Q|²|Δ||2^CX|) で抑えられ、これが問題に対して最悪ケース最適であることが示されている。
  • 一般(非非一意)な VPT の場合、基礎となるオートマトンに対して決定化を適用し、データ複雑度において全 VPT クラスへ定数遅延保証を拡張する。

実験結果

リサーチクエスチョン

  • RQ1ネストされたドキュメントに対するストリーミングクエリ評価は、入力の1回のパス走破後に定数遅延列挙が可能か?
  • RQ2このようなストリーミング列挙に必要な最小の最悪ケース更新時間とメモリ使用量は何か? そして、それが達成可能か?
  • RQ3MSO論理がネストされたドキュメント上で表現可能な表現力を、効率的な列挙を伴うストリーミング環境で捉えるにはどうすればよいか?
  • RQ4決定化を用いて、非一意な VPT から一般 VPT へ定数遅延列挙を拡張することは可能か?
  • RQ5提案されたアルゴリズムは、XPath や XQuery、あるいは JSON クエリ言語といった実用的クエリ言語へ、保証された効率性を伴って適用可能か?

主な発見

  • 提案されたアルゴリズムは、入力ストリームを1回のパス走破後に I/O-非一意な VPT に対して定数遅延列挙を達成し、更新時間は O(|Q|²|Δ||2^CX|) で抑えられる。
  • アルゴリズムは、更新時間とメモリ使用量において最悪ケース最適であり、任意のストリーミングアルゴリズムがこの時間と空間を必要とする入力インスタンスが存在する。
  • v-パス上のマージ操作を用いた導出トランダーサー T_G の構築により、元の VPT の意味論を保ちつつ、正しいかつ効率的な出力列挙が保証される。
  • 一般 VPT の場合、基礎となる EVPA を決定化することで、データ複雑度において全 VPT クラスへ定数遅延列挙を拡張する。
  • アルゴリズムは実世界のクエリ言語(XPath や XQuery)へ適用可能であり、データ抽出用のドキュメントスパンナモデルとも互換性がある。
  • 出力マッピング構築を含む、列挙パイプライン全体が、出力サイズに線形時間で実行され、出力線形遅延が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。