Skip to main content
QUICK REVIEW

[论文解读] Data Allocation in a Heterogeneous Disk Array - HDA with Multiple RAID Levels for Database Applications

Alexander Thomasian, Jun Xu|arXiv (Cornell University)|Oct 16, 2015
Advanced Data Storage Technologies被引用 2
一句话总结

本文提出了一种异构磁盘阵列(HDA)的数据分配策略,通过为具有不同RAID级别的虚拟阵列(VAs)分配资源,以优化磁盘带宽、容量利用率和负载均衡。通过最小化磁盘间的峰值利用率和方差,并利用聚类RAID5,该方法在减少不必要的冗余开销的同时,最大化可分配的VAs数量。

ABSTRACT

We consider the allocation of Virtual Arrays (VAs) in a Heterogeneous Disk Array (HDA). Each VA holds groups of related objects and datasets such as files, relational tables, which has similar performance and availability characteristics. We evaluate single-pass data allocation methods for HDA using a synthetic stream of allocation requests, where each VA is characterized by its RAID level, disk loads and space requirements. The goal is to maximize the number of allocated VAs and maintain high disk bandwidth and capacity utilization, while balancing disk loads. Although only RAID1 (basic mirroring) and RAID5 (rotated parity arrays) are considered in the experimental study, we develop the analysis required to estimate disk loads for other RAID levels. Since VA loads vary significantly over time, the VA allocation is carried out at the peak load period, while ensuring that disk bandwidth is not exceeded at other high load periods. Experimental results with a synthetic stream of allocation requests show that allocation methods minimizing the maximum disk bandwidth and capacity utilization or their variance across all disks yield the maximum number of allocated VAs. HDA saves disk bandwidth, since a single RAID level accommodating the most stringent availability requirements for a small subset of objects would incur an unnecessarily high overhead for updating check blocks or data replicas for all objects. The number of allocated VAs can be increased by adopting the clustered RAID5 paradigm, which exploits the tradeoff between redundancy and bandwidth utilization. Since rebuild can be carried out at the level of individual VAs, prioritizing rebuild of VAs with higher access rates can improve overall performance.

研究动机与目标

  • 针对数据库工作负载,提升异构磁盘阵列(HDA)的磁带宽和容量利用率。
  • 在保持磁盘间负载均衡的前提下,最大化可分配的虚拟阵列(VAs)数量。
  • 根据VA需求分配适当的RAID级别(如RAID1、RAID5)以减少冗余开销。
  • 评估聚类RAID5和优先重建对整体系统性能的影响。
  • 开发一种框架,用于估计多种RAID级别(而不仅限于RAID1和RAID5)下的磁盘负载。

提出的方法

  • 使用合成的VA分配请求流来模拟真实世界中的数据库工作负载。
  • 应用单次遍历的分配算法,综合考虑RAID级别、每个VA的存储需求及磁盘负载。
  • 通过最小化所有磁盘中的最大磁带宽和容量利用率或其方差,提升分配成功率。
  • 通过扩展分析技术支持多种RAID级别,尽管实验重点集中于RAID1和RAID5。
  • 基于访问速率实现每个VA的重建优先级,以在恢复期间提升性能。
  • 实施聚类RAID5以提高带宽利用率并降低冗余成本。

实验结果

研究问题

  • RQ1最小化磁盘峰值利用率如何影响HDA中成功分配的VAs数量?
  • RQ2在异构磁盘阵列中,使用多种RAID级别对带宽和容量利用率有何影响?
  • RQ3与单体RAID级别相比,聚类RAID5是否能提升分配效率并降低冗余开销?
  • RQ4优先重建高访问率VA对整体系统性能有何影响?
  • RQ5不同RAID级别对磁盘负载估计和分配决策有何影响?

主要发现

  • 通过最小化最大磁带宽和容量利用率或其方差的分配方法,实现了最高数量的VAs分配。
  • 若所有VA均使用RAID1将导致不必要的开销;根据对象需求分配RAID级别可降低冗余成本。
  • 聚类RAID5通过利用冗余与带宽之间的权衡,提升了带宽利用率,并增加了可分配VAs的数量。
  • 优先重建高访问率VA可提升恢复期间的整体系统性能。
  • 所提方法在保持高磁带宽和容量利用率的同时,实现了磁盘间负载的均衡。
  • 该框架支持对RAID1和RAID5以外的RAID级别进行磁盘负载估计,具有更广泛的应用潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。