QUICK REVIEW

[論文レビュー] DataHub: Collaborative Data Science & Dataset Version Management at Scale

Anant Bhardwaj, Souvik Bhattacherjee|arXiv (Cornell University)|Sep 2, 2014

Scientific Computing and Data Management参考文献 21被引用数 112

ひとこと要約

本稿では、Gitにインspiredされたが、構造化および非構造化データセットに最適化されたDSVC（データセットバージョン制御システム）と、大規模なデータサイエンスの共同作業を支援するプラットフォームDATAHUBを提案する。このシステムは、新しいストレージおよびデルタ計算技術を用いて、冗長性を低減し、共同データ分析における効率を向上させる、スケーラブルなバージョン管理、ブランチ、マージ、宣言的クエリを可能にする。

ABSTRACT

Relational databases have limited support for data collaboration, where teams collaboratively curate and analyze large datasets. Inspired by software version control systems like git, we propose (a) a dataset version control system, giving users the ability to create, branch, merge, difference and search large, divergent collections of datasets, and (b) a platform, DataHub, that gives users the ability to perform collaborative data analysis building on this version control system. We outline the challenges in providing dataset version control at scale.

研究の動機と目的

データサイエンスチームにおけるスケーラブルかつ共同利用可能なデータセットバージョン管理の欠如を解決すること。
大規模なデータコラボレーションにおけるストレージの肥大化と重複を、インテリジェントなバージョン管理とデルタエンコードにより低減すること。
複数のユーザーと進化するデータ製品を対象とした、効率的なクエリ評価、プロバンセンス追跡、データセットバージョンの取得を可能にすること。
データクリーニング、検索、可視化のためのツールを備えた、共同データ分析を支援するホステッドプラットフォーム（DATAHUB）を提供すること。

提案手法

大規模で多様なデータセットを対象とした、ブランチ、マージ、バージョン管理をサポートするデータセットバージョン制御システムDSVCを提案する。
効率的なリトリーブを目的としたバージョンファーストと、効率的なクエリ評価およびプロバンセンス追跡を目的としたレコードファーストの二重ストレージ表現を採用する。
ファイルレベルの差分ではなく、レコードレベルの変更を特定するデータベースに配慮したデルタ計算を用いることで、大規模データセットにおける効率を向上させる。
物理的差分検出の高速化とI/Oオーバーヘッドの低減を目的として、ハッシュツリー構造とワークロードに配慮したストレージレイアウトを適用する。
バージョングラフにおけるリトリーブコストを最小化するための最適化ポイントとして、スティーナー・データセットを導入する。
インデキシング、キャッシュ、クエリ結果のマテリアライゼーションを用いて、一般的な操作およびVQL（バージョン付きクエリ言語）の実行を高速化する。

実験結果

リサーチクエスチョン

RQ1大規模で分散化したデータサイエンスチームがテラバイト規模の構造化および非構造化データを管理するにあたり、どのようにしてデータセットバージョン管理をスケーラブルに実現できるか？
RQ2どのようにして、マルチバージョンデータセットシステムにおいて、高速なクエリ評価とコンパクトなストレージを両立できる効率的表現およびデータ構造を実現できるか？
RQ3ブランチやマージをサポートしつつ、ストレージコストとリトリーブコストを最小限に抑えるために、バージョングラフをどのように最適に符号化できるか？
RQ4ファイルレベルのバイナリ差分に依存せずに、大規模データセット間の効率的かつスケーラブルな差分計算を実現するにはどのような技術が必要か？
RQ5DATAHUBのようなホステッドプラットフォームは、どのようにしてバージョン管理を共同データ分析ワークフローに効果的に統合できるか？

主な発見

DSVCは、従来のバージョン制御やファイルシステムでは実現が困難だった大規模データセットの効率的ブランチおよびマージを可能にし、共同データサイエンスワークフローを支援する。
二重表現（バージョンファーストおよびレコードファースト）により、それぞれ効率的なリトリーブと効率的なクエリ評価が可能となり、インデキシングおよびキャッシュによるパフォーマンストレードオフが管理可能である。
データベースに配慮したデルタ計算により、メモリを食いすぎるファイルレベルの差分計算に依存せず、レコードレベルの変更を特定することでストレージオーバーヘッドを低減できる。
バージョングラフ符号化におけるスティーナー・データセットの活用により、バージョン間のパスを最適化することでリトリーブコストが削減される。
システムは冗長なストレージを低減し、データセットの決定的再作成を可能にすることで、データ損失の懸念を軽減し、再現性を向上させる。
ファイルレベルのAPIを通じたデータへの透明なアクセスを提供することで、既存のデータサイエンスパイプラインとの後方互換性を確保する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。