Skip to main content
QUICK REVIEW

[論文レビュー] Optimizing Organizations for Navigating Data Lakes.

Fatemeh Nargesian, Ken Q. Pu|arXiv (Cornell University)|Dec 17, 2018
Data Quality and Management参考文献 39被引用数 2
ひとこと要約

本稿では、ナビゲーションを通じたテーブル発見を強化するように最適化された、データレイクの組織をグラフとして表現する確率的モデルを提案する。ユーザーのナビゲーション行動をモデル化し、近似アルゴリズムを用いることで、キーワード検索や既存の分類体系を上回る発見率が得られ、ユーザースタディーではナビゲーションがキーワード検索を補完し、検索可能性を向上させることを示した。

ABSTRACT

We consider the problem of creating a navigation structure that allows a user to most effectively navigate a data lake. We define an organization as a graph that contains nodes representing sets of attributes within a data lake and edges indicating subset relationships among nodes. We present a new probabilistic model of how users interact with an organization and define the likelihood of a user finding a table using the organization. We propose the data lake organization problem as the problem of finding an organization that maximizes the expected probability of discovering tables by navigating an organization. We propose an approximate algorithm for the data lake organization problem. We show the effectiveness of the algorithm on both real data lakes containing data from open data portals and on benchmarks that emulate the observed characteristics of real data lakes. Through a formal user study, we show that navigation can help users discover relevant tables that cannot be found by keyword search. In addition, in our study, 42% of users preferred the use of navigation and 58% preferred keyword search, suggesting these are complementary and both useful modalities for data discovery in data lakes. Our experiments show that data lake organizations take into account the data lake distribution and outperform an existing hand-curated taxonomy and a common baseline organization.

研究の動機と目的

  • データの非構造的・多様なデータによるデータレイクにおける非効率なデータ発見の課題に対処すること。
  • ユーザーのデータレイク内ナビゲーション行動を確率的プロセスとしてモデル化し、テーブル発見の確率を予測すること。
  • 最適なグラフ構造を用いて、全テーブルの期待発見確率を最大化することによって、データレイク組織化問題を定式化すること。
  • 効果的なナビゲーション組織を構築するための近似アルゴリズムを開発・評価すること。
  • 実データレイクおよび合成データレイクを用いて、キーワード検索および既存の分類体系と比較して、本手法の実証的妥当性を検証すること。

提案手法

  • ノードを属性集合、エッジを部分集合関係を表す有向非巡回グラフ(DAG)として、データレイク組織を表現する。
  • 組織グラフ内のパスを通じてテーブルに到達する確率を推定する確率的ユーザーナビゲーションモデルを定義する。
  • 全テーブルにわたる期待発見確率を最大化することを目的として、データレイク組織化問題を定式化する。
  • データ分布およびユーザー行動パターンに基づき、近似のグリーディーなアルゴリズムを提案して組織グラフを構築する。
  • 実世界のデータレイク特性を反映するオープンデータポータルからの実データと合成ベンチマークを用いて評価する。
  • ナビゲーションとキーワード検索の両者を比較する形式的なユーザースタディーを実施する。

実験結果

リサーチクエスチョン

  • RQ1グラフベースの組織構造は、データレイク内の関連テーブルの発見確率を向上させることができるか?
  • RQ2ナビゲーションベースの発見は、キーワード検索と比較して、有効性およびユーザーライクにおいてどのように異なるか?
  • RQ3提案された組織モデルは、手作業で作成された分類体系およびベースライン組織手法をどの程度上回るか?
  • RQ4アルゴリズムは、実世界のデータレイクの分布にどの程度スケーラブルかつ適応可能か?

主な発見

  • キーワード検索のみに依存する場合と比較して、ナビゲーションはテーブル発見率を顕著に向上させる。42%のユーザーがナビゲーションを、58%がキーワード検索を好むという結果は、両者の相乗効果が強いことを示している。
  • 提案されたアルゴリズムは、手作業で作成された分類体系および一般的なベースライン組織手法を上回る期待テーブル発見確率を達成した。
  • 本手法は、データレイクの分布特性を効果的に捉えており、より効果的なナビゲーション構造を生成した。
  • ユーザースタディーの結果、キーワード検索のみでは検出できないテーブルをナビゲーションが発見できることを確認した。
  • アルゴリズムは、実データレイクおよび実データレイクの特性を模倣する合成ベンチマークの両方で、頑健な性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。