QUICK REVIEW

[論文レビュー] A Survey on Array Storage, Query Languages, and Systems

Florin Rusu, Yu Cheng|arXiv (Cornell University)|Feb 1, 2013

DNA and Biological Computing参考文献 43被引用数 29

ひとこと要約

本調査は、大規模な科学的データ処理のためのアレイストレージ、クエリ言語、システムについて、包括的かつ統一的な分析を提供する。アレイのチャンク化戦略の評価、提案されたアレイ代数演算子の比較、SciDBのような実際のシステムのベンチマーキングを通じて、Big Data応用におけるアレイ処理分野の主な研究ギャップと今後の方向性を特定する。

ABSTRACT

Since scientific investigation is one of the most important providers of massive amounts of ordered data, there is a renewed interest in array data processing in the context of Big Data. To the best of our knowledge, a unified resource that summarizes and analyzes array processing research over its long existence is currently missing. In this survey, we provide a guide for past, present, and future research in array processing. The survey is organized along three main topics. Array storage discusses all the aspects related to array partitioning into chunks. The identification of a reduced set of array operators to form the foundation for an array query language is analyzed across multiple such proposals. Lastly, we survey real systems for array processing. The result is a thorough survey on array data storage and processing that should be consulted by anyone interested in this research topic, independent of experience level. The survey is not complete though. We greatly appreciate pointers towards any work we might have forgotten to mention.

研究の動機と目的

数十年にわたるアレイ処理研究を統合的にまとめたリソースの不足に対処すること。
チャンク化、ディスク構成、マルチディスクレイアウトを含む、アレイストレージ技術の分析。
複数の提案におけるアレイ演算子およびクエリ言語の設計と採用状況の評価。
実世界のアレイ処理システムの調査。実行戦略と機能に焦点を当てる。
科学的ワークロードにおけるアレイデータ管理分野における現在および将来の研究課題の特定。

提案手法

属性を伴う多次元離散ドメイン上の関数としてアレイを形式化する。
チャンクサイズ選択、ストレージレイアウト、単一および複数ディスクにわたる組織化を含む、アレイチャンク化技術の調査。
最小限で基盤的な演算子のセットを特定するため、アレイ代数の提案を分析する。
アレイ処理システムの評価。特にSciDBのアーキテクチャと実行モデルについて詳細な分析を行う。
複雑なアレイ演算とUDF（ユーザー定義関数）を含むStandard Science DBMS Benchmark (SS-DB) を用いたシステムベンチマーキング。
プロバンス（履歴追跡）のためのラインエージェンス戦略の比較：ブラックボックス、セルレベル、リージョンレベル、マッピングラインエージェンス。

実験結果

リサーチクエスチョン

RQ1スケーラブルな科学的データ処理において、どのアレイストレージおよびチャンク化戦略が最も効果的であると考えられるか？
RQ2実用的なアレイクエリ言語を構築するのに適した、最小限で最も表現力のあるアレイ演算子のセットは何か？
RQ3SciDBのような実際のシステムでは、アレイ演算がどのように実装されており、そのパフォーマンス上のトレードオフは何か？
RQ4SS-DBのようなベンチマークは、アレイ固有のプリミティブの能力を測定しているのか、それともUDFの実装品質を測定しているのか、どちらに近いか？
RQ5アレイワークフローにおけるラインエージェンスメカニズムは、正確性、ストレージコスト、クエリ効率のバランスをどのようにとっているか？

主な発見

最小限のアレイ演算子のセットについての合意形成は存在せず、複数の提案が共存しているが、普遍的な採用はない。
SciDBは大規模アレイ処理において最も成熟したシステムであり、複雑なUDFと高度なラインエージェンス追跡をサポートしている。
SS-DBベンチマークは、カラムストレージと並列処理に有利な方法でシステムのパフォーマンスを測定しており、必ずしもアレイ固有のプリミティブの能力を測定しているわけではない。
マッピングラインエージェンスは、座標変換関数のみを保存することでストレージオーバーヘッドを低減し、必要に応じてラインエージェンスをオンデマンドで計算可能にする。
セルレベルおよびリージョンレベルのラインエージェンスは細粒度のプロバンスを提供するが、特に大規模アレイでは高いストレージコストを伴う。
1990年代に提唱された多くの初期のアレイ処理のアイデアは、進化したり再発見されたりしており、成熟しつつあるが、依然として断片的な研究分野であることが示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。