Skip to main content
QUICK REVIEW

[论文解读] Ready for Rain? A View from SPEC Research on the Future of Cloud Metrics

Nikolas Herbst, Rouven Krebs|arXiv (Cornell University)|Apr 12, 2016
Cloud Computing and Resource Management参考文献 26被引用 27
一句话总结

本文提出了一套基于真实世界测量方法的云环境专用指标框架,涵盖弹性、性能隔离、可用性及运维风险,旨在对云系统进行基准测试。该框架引入了新颖的定量指标与聚合技术,可客观评估对云服务选型与系统优化至关重要的非功能性属性。

ABSTRACT

In the past decade, cloud computing has emerged from a pursuit for a service-driven information and communication technology (ICT), into a signifcant fraction of the ICT market. Responding to the growth of the market, many alternative cloud services and their underlying systems are currently vying for the attention of cloud users and providers. Thus, benchmarking them is needed, to enable cloud users to make an informed choice, and to enable system DevOps to tune, design, and evaluate their systems. This requires focusing on old and new system properties, possibly leading to the re-design of classic benchmarking metrics, such as expressing performance as throughput and latency (response time), and the design of new, cloud-specififc metrics. Addressing this requirement, in this work we focus on four system properties: (i) elasticity of the cloud service, to accommodate large variations in the amount of service requested, (ii) performance isolation between the tenants of shared cloud systems, (iii) availability of cloud services and systems, and the (iv) operational risk of running a production system in a cloud environment.Focusing on key metrics, for each of these properties we review the state-of-the-art, then select or propose new metrics together with measurement approaches. We see the presented metrics as a foundation towards upcoming, industry-standard, cloud benchmarks. Keywords: Cloud Computing; Metrics; Measurement; Benchmarking; Elasticity; Isolation; Performance; Service Level Objective; Availability; Operational Risk.

研究动机与目标

  • 应对云计算在ICT领域市场份额不断提升所带来的标准化、云环境专用基准测试指标日益增长的需求。
  • 识别并定义现代云环境中关键的非功能性系统属性——弹性、性能隔离、可用性及运维风险。
  • 开发新指标或优化现有指标,以定量评估上述属性,实现对云服务与系统的客观比较与评估。
  • 为每项指标提供测量方法,确保其可复现性与在真实云部署中的实际适用性。
  • 通过整合弹性、隔离、可用性与风险于统一评估框架,为未来行业标准云基准奠定基础。

提出的方法

  • 通过匹配函数定义弹性,该函数关联需求与分配的资源,利用时延、资源配置与抖动指标评估响应能力。
  • 基于QoS影响与工作负载比率提出性能隔离指标,并引入积分指标以捕捉累积干扰效应。
  • 引入运维风险指标,包括资源配置风险、竞争风险、服务风险与系统风险,采用性能、利用率与退化程度的加权组合。
  • 建立测量方法,包括受控系统配置、工作负载配置与SLA符合度追踪,以确保可复现性。
  • 使用加权组合(例如 $ w_p, w_c $)聚合指标,以反映真实云工作负载中不同风险分量的相对重要性。
  • 利用真实云工作负载与SLA数据验证指标的敏感性与相关性,特别是在多租户与弹性环境中。

实验结果

研究问题

  • RQ1在考虑时延、资源配置与抖动的前提下,如何对云系统中的弹性进行定量测量,而不仅依赖传统的吞吐量与延迟指标?
  • RQ2在资源竞争影响QoS的多租户云环境中,何种指标最能有效捕捉性能隔离?
  • RQ3在真实云部署中,如何在简单正常运行时间之外,结合SLA符合度与严格程度水平来衡量可用性?
  • RQ4何种运维风险指标能有效捕捉弹性、资源竞争与性能退化在生产云系统中联合影响的综合效应?
  • RQ5如何对这些指标进行聚合与加权,以反映云服务选型与系统调优中的真实世界优先级?

主要发现

  • 所提出的弹性指标——准确性、时延、资源配置、时间共享与抖动——从多维角度揭示了云系统对负载变化的适应能力。
  • 性能隔离最宜通过QoS影响指标与基于工作负载比率的积分指标来捕捉,这些指标可量化共享环境中干扰的严重程度。
  • 运维风险指标,特别是资源配置风险与竞争风险的加权组合,能有效反映在弹性与共置工作负载下SLA违规的可能性。
  • 每项指标的测量方法通过受控系统配置与工作负载配置得到验证,确保了可复现性与实际相关性。
  • 将弹性、隔离、可用性与运维风险整合进统一的基准测试框架,实现了对云系统更全面、更真实的评估。
  • 该框架旨在支持未来云基准的标准化,计划扩展至大数据、Web服务与图处理工作负载。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。