Skip to main content
QUICK REVIEW

[论文解读] A Survey on Array Storage, Query Languages, and Systems

Florin Rusu, Yu Cheng|arXiv (Cornell University)|Feb 1, 2013
DNA and Biological Computing参考文献 43被引用 29
一句话总结

本综述对大规模科学数据处理的数组存储、查询语言及系统进行了全面且统一的分析。它评估了数组分块策略,对比了提出的数组代数算子,并对SciDB等实际系统进行了基准测试,识别出在大数据应用中数组处理的关键研究空白与未来方向。

ABSTRACT

Since scientific investigation is one of the most important providers of massive amounts of ordered data, there is a renewed interest in array data processing in the context of Big Data. To the best of our knowledge, a unified resource that summarizes and analyzes array processing research over its long existence is currently missing. In this survey, we provide a guide for past, present, and future research in array processing. The survey is organized along three main topics. Array storage discusses all the aspects related to array partitioning into chunks. The identification of a reduced set of array operators to form the foundation for an array query language is analyzed across multiple such proposals. Lastly, we survey real systems for array processing. The result is a thorough survey on array data storage and processing that should be consulted by anyone interested in this research topic, independent of experience level. The survey is not complete though. We greatly appreciate pointers towards any work we might have forgotten to mention.

研究动机与目标

  • 为解决几十年来数组处理研究缺乏统一资源总结的问题。
  • 分析数组存储技术,包括分块、磁盘组织结构以及多磁盘布局。
  • 评估多种提案中数组算子与查询语言的设计与采用情况。
  • 调查实际的数组处理系统,重点关注其执行策略与功能。
  • 识别科学工作负载下数组数据管理当前及未来的科研挑战。

提出的方法

  • 将数组形式化为在多维离散域上的函数,并附加属性。
  • 调研数组分块技术,包括分块大小选择、存储布局,以及单磁盘与多磁盘环境下的组织方式。
  • 分析数组代数提案,以识别构成数组查询语言基础的最小、最核心算子集合。
  • 评估数组处理系统,对SciDB的架构与执行模型进行深入分析。
  • 使用标准科学DBMS基准(SS-DB)对系统进行基准测试,该基准包含复杂数组操作与用户自定义函数(UDFs)。
  • 对比多种血缘追踪策略——黑盒式、单元级、区域级与映射血缘——以捕捉数组工作流中的数据溯源信息。

实验结果

研究问题

  • RQ1哪些数组存储与分块策略在可扩展科学数据处理中表现最为有效?
  • RQ2能够构成实用数组查询语言的最小且最具表达力的数组算子集合是什么?
  • RQ3像SciDB这样的实际系统如何实现数组操作?其性能权衡如何?
  • RQ4SS-DB等基准测试在多大程度上衡量了真正的数组处理能力,而非用户自定义函数的实现质量?
  • RQ5数组工作流中的血缘追踪机制如何在精度、存储成本与查询效率之间实现平衡?

主要发现

  • 尚未就最小数组算子集合达成共识;多种提案共存但未被普遍采纳。
  • SciDB是目前最成熟的大型数组处理系统,支持复杂用户自定义函数与高级血缘追踪功能。
  • SS-DB基准测试侧重于列式存储与并行处理能力,因此更有利于具备这些特性的系统,而非真正衡量数组原生原语的性能。
  • 映射血缘通过仅存储坐标变换函数,显著降低存储开销,并支持按需计算血缘信息。
  • 单元级与区域级血缘提供细粒度溯源信息,但存储成本较高,尤其在处理大规模数组时更为明显。
  • 许多20世纪90年代提出的早期数组处理思想已被演化或重新发现,表明该研究领域虽在成熟化,但仍处于碎片化状态。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。