QUICK REVIEW

[论文解读] Dominant Resource Fairness in Cloud Computing Systems with Heterogeneous Servers

Wei Wang, Baochun Li|arXiv (Cornell University)|Aug 1, 2013

Cloud Computing and Resource Management参考文献 24被引用 90

一句话总结

本文提出 DRFH，一种多资源分配机制，将主导资源公平（DRF）推广至具有多样化服务器配置的异构云环境。通过在整套资源池中均衡每个用户的全局主导份额，DRFH 确保了公平性、效率和真实性。基于 Google 集群追踪的大规模仿真表明，与传统的基于槽位的调度器相比，DRFH 显著提升了资源利用率并减少了作业完成时间。

ABSTRACT

We study the multi-resource allocation problem in cloud computing systems where the resource pool is constructed from a large number of heterogeneous servers, representing different points in the configuration space of resources such as processing, memory, and storage. We design a multi-resource allocation mechanism, called DRFH, that generalizes the notion of Dominant Resource Fairness (DRF) from a single server to multiple heterogeneous servers. DRFH provides a number of highly desirable properties. With DRFH, no user prefers the allocation of another user; no one can improve its allocation without decreasing that of the others; and more importantly, no user has an incentive to lie about its resource demand. As a direct application, we design a simple heuristic that implements DRFH in real-world systems. Large-scale simulations driven by Google cluster traces show that DRFH significantly outperforms the traditional slot-based scheduler, leading to much higher resource utilization with substantially shorter job completion times.

研究动机与目标

解决在具有多样化服务器配置和工作负载需求的异构云环境中，基于槽位的调度器效率低下的问题。
设计一种多资源分配机制，公平且高效地将异构服务器资源匹配给异构用户工作负载。
在异构环境下确保分配机制具备理想的性质，如无 envy 性、帕累托最优性和真实性。
设计一种实用启发式方法，用于在真实云系统中部署该机制。
使用真实的 Google 集群追踪对机制进行评估，以证明其相对于传统调度器的性能优势。

提出的方法

提出 DRFH，一种通过均衡每个用户在整个云资源池中全局主导份额（即任意资源分配比例的最大值）的机制。
将全局主导份额定义为用户在所有服务器中持有的最大资源比例，从而将单服务器 DRF 推广至异构、分布式系统。
实现一种最佳匹配启发式方法，根据最小化资源碎片化和最大化分配效率的原则，将任务分配给服务器。
通过证明用户无法通过谎报真实资源需求而获益，确保机制的真实性。
使用真实 Google 集群追踪驱动的大规模仿真，将 DRFH 与基于槽位的调度器及 First-Fit DRFH 进行对比评估。
分析公平性属性，包括无 envy 性、帕累托最优性、瓶颈公平性和人口单调性。

实验结果

研究问题

RQ1主导资源公平（DRF）能否推广至由多个异构服务器组成、资源配置各不相同的云系统？
RQ2所提出的 DRFH 机制在服务器异构性下是否仍能保持关键公平性属性，如无 envy 性、帕累托最优性和真实性？
RQ3在真实工作负载中，DRFH 与传统基于槽位的调度器相比，在资源利用率和作业完成时间方面表现如何？
RQ4DRFH 在共享云环境中在多大程度上提升了任务完成比率和资源共享激励？
RQ5像 Best-Fit DRFH 这类实用启发式方法能否在保持性能优势的同时，有效实现在真实系统中的 DRFH？

主要发现

与传统的基于槽位的调度器相比，DRFH 显著提升了资源利用率，Best-Fit DRFH 在仿真中所有时间点均实现了更高的利用率。
在 DRFH 下，作业完成时间显著缩短，尤其对于任务较多的大型作业，平均完成时间的减少最为明显。
Best-Fit DRFH 的任务完成比率几乎对所有用户均高于基于槽位的调度器，约有 20% 的用户在 DRFH 下完成了全部任务，但在基于槽位的调度器下未能完成。
仅有 2% 的用户在 DRFH 下的任务完成比率出现轻微下降，与专用云环境相比，这表明共享激励非常强。
Best-Fit DRFH 启发式方法在资源利用率和作业完成时间方面均优于 First-Fit DRFH 变体，证实了分配策略的重要性。
尽管服务器异构性带来了复杂性，DRFH 仍保持了所有核心公平性属性，包括无 envy 性、帕累托最优性和真实性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。