Skip to main content
QUICK REVIEW

[論文レビュー] Temporal Provenance Model (TPM): Model and Query Language

Amin Beheshti, Hamid Reza Motahari‐Nezhad|arXiv (Cornell University)|Nov 21, 2012
Scientific Computing and Data Management参考文献 34被引用数 27
ひとこと要約

本論文は、時間的進化を明示的に表現する時間認識プロバンセンスグラフモデル、Temporal Provenance Model (TPM) を提案する。タイムスタンプ付きのフォルダーやパスを抽象化として導入し、関連するエンティティをグループ化し、時間経過に伴う歴史的導出経路を追跡することで、効率的かつ意味的に正確なプロバンセンスデータの照会を可能にする。評価では、TPMグラフにおけるパス照会結果の正確度が93.4%に達した一方、OPMグラフでは46%にとどまり、関連性および効率性の面で顕著な向上が示された。

ABSTRACT

Provenance refers to the documentation of an object's lifecycle. This documentation (often represented as a graph) should include all the information necessary to reproduce a certain piece of data or the process that led to it. In a dynamic world, as data changes, it is important to be able to get a piece of data as it was, and its provenance graph, at a certain point in time. Supporting time-aware provenance querying is challenging and requires: (i) explicitly representing the time information in the provenance graphs, and (ii) providing abstractions and efficient mechanisms for time-aware querying of provenance graphs over an ever growing volume of data. The existing provenance models treat time as a second class citizen (i.e. as an optional annotation). This makes time-aware querying of provenance data inefficient and sometimes inaccessible. We introduce an extended provenance graph model to explicitly represent time as an additional dimension of provenance data. We also provide a query language, novel abstractions and efficient mechanisms to query and analyze timed provenance graphs. The main contributions of the paper include: (i) proposing a Temporal Provenance Model (TPM) as a timed provenance model; and (ii) introducing two concepts of timed folder, as a container of related set of objects and their provenance relationship over time, and timed paths, to represent the evolution of objects tracing information over time, for analyzing and querying TPM graphs. We have implemented the approach on top of FPSPARQL, a query engine for large graphs, and have evaluated for querying TPM models. The evaluation shows the viability and efficiency of our approach.

研究の動機と目的

  • 時間の扱いが第二の注釈として扱われる既存のプロバンセンスモデルの限界に対処し、時間認識照会が非効率的かつ意味的に不正確になるのを防ぐ。
  • プロバンセンスグラフにおける時間的進化を明示的にモデル化し、任意の時点におけるデータおよびプロセスの正確な再構築を可能にする。
  • 関連するエンティティをグループ化し、時間経過に伴う歴史的導出経路を追跡するための新規抽象化として「タイムスタンプ付きフォルダ」および「タイムスタンプ付きパス」を導入する。
  • スケールに応じた時間認識プロバンセンスグラフの分析を可能にする、効率的な照会言語およびエンジンの設計と実装。
  • 実世界のデータセットを用いた評価を通じて、従来のOPMベースの照会と比較して優れた正確度と性能を示す。

提案手法

  • プロバンセンスグラフに時間の次元を第一級の要素として埋め込むことで、Open Provenance Model (OPM) を拡張し、タイムスタンプ付きの関係およびエンティティ状態を可能にする。
  • 時間的パーティショニングと関連データのグループ化を可能にする、関連するエンティティおよびそのプロバンセンスを格納する「タイムスタンプ付きフォルダ」を導入する。
  • 進化する導出履歴を表現する「タイムスタンプ付きパス」を導入し、時間間隔に跨るオブジェクトのルートラインを追跡可能にする。
  • FPSPARQL照会エンジンを拡張し、TPMにおける時間的グラフ照会をサポートする。これには、GRIPPや全ペア最短経路といった到達可能性およびパス探索アルゴリズムが含まれる。
  • サイクル除去技術を採用し、パス照会における不要な結果を低減することで、結果の質と照会効率を向上させる。
  • ユーザーが照会を立案・探索しやすくするためのフロントエンドツールを開発し、TPMグラフの可視化を支援する。

実験結果

リサーチクエスチョン

  • RQ1どのようにしてプロバンセンスグラフを拡張し、データおよびプロセスの時間的進化を明示的に表現できるか?
  • RQ2特定の時点におけるプロバンセンスデータを効率的に照会・分析するためには、どのような抽象化が必要か?
  • RQ3注釈ベースのモデルと比較して、明示的な時間モデル化が、プロバンセンスパス照会の正確度および効率性にどのように寄与するか?
  • RQ4TPMモデルは、パス照会出力におけるサイクルおよび不要なパスをどの程度低減するか?
  • RQ5提案されたモデルおよび照会言語は、実世界の大規模プロバンセンスグラフにおいても、性能と使いやすさを維持したままスケーリング可能か?

主な発見

  • 提案されたTPMモデルは、実世界のデータセットにおいて、パス照会の正確度が93.4%に達した一方、同等のOPMグラフを照会した場合の正確度はたった46%にとどまった。
  • TPMベースの照会では発見されたパス数が318件のOPMベースの照会と比較して顕著に少ない(183件)ことが確認され、結果の関連性が高まっていることが示された。
  • 評価結果から、TPMを用いた時間認識照会はサイクルと不要なパスを低減し、結果の質と照会の保守性の両面で向上した。
  • 特にパス探索ワークロードにおいて、TPMグラフの照会はOPMグラフと比較して、メモリおよびプロセッサ消費量が著しく低減された。
  • TPMとFPSPARQLの統合により、大規模な時間認識プロバンセンス照問が効率的に処理可能となり、フレームワークの実用性が裏付けられた。
  • フロントエンドツールはユーザーとのインタラクションを促進し、可視化を支援することで、効果的なプロバンセンス照問の立案と探索を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。