Skip to main content
QUICK REVIEW

[论文解读] Tycoon: an Implementation of a Distributed, Market-based Resource Allocation System

Kevin Lai, Lars Rasmusson|arXiv (Cornell University)|Dec 8, 2004
Distributed and Parallel Computing Systems参考文献 27被引用 23
一句话总结

Tycoon 提出了一种分布式、基于市场的资源分配系统,通过持续的用户驱动投标,实现在大规模集群中低延迟、经济高效的计算资源分配。通过将投标与实时交互解耦,并利用本地拍卖师,Tycoon 在高负载下仍能实现低于 30 秒的资源重分配,且开销不足 5%,同时通过基于信用的投标机制鼓励用户真实估值。

ABSTRACT

Distributed clusters like the Grid and PlanetLab enable the same statistical multiplexing efficiency gains for computing as the Internet provides for networking. One major challenge is allocating resources in an economically efficient and low-latency way. A common solution is proportional share, where users each get resources in proportion to their pre-defined weight. However, this does not allow users to differentiate the value of their jobs. This leads to economic inefficiency. In contrast, systems that require reservations impose a high latency (typically minutes to hours) to acquire resources. We present Tycoon, a market based distributed resource allocation system based on proportional share. The key advantages of Tycoon are that it allows users to differentiate the value of their jobs, its resource acquisition latency is limited only by communication delays, and it imposes no manual bidding overhead on users. We present experimental results using a prototype implementation of our design.

研究动机与目标

  • 解决网格和 PlanetLab 等分布式系统中比例共享和预留机制资源分配的低效问题。
  • 通过消除频繁的交互式投标,在保持低延迟资源获取的同时减轻市场机制中用户的负担。
  • 通过将拍卖师去中心化至各主机而非依赖单一集中式市场,提升可扩展性和可靠性。
  • 使用户能够在无需手动干预或高延迟投标周期的情况下,表达其作业的不同估值。
  • 证明持续投标与最优响应算法可在真实集群中实现高效、可扩展且低开销的资源分配。

提出的方法

  • 每个主机运行一个本地拍卖师进程,使用 Linux VServers 管理虚拟化 CPU 资源,若拍卖师失败也能实现容错。
  • 用户提交持续投标,形式为 (主机, 资源, 信用, 时间区间),直至被取消或资金耗尽。
  • 资源分配与单位时间内的投标价值成比例(b^r_i / t^r_i),确保基于用户估值的高效分配。
  • 代理使用最优响应算法,在多个主机间动态调整投标,以在预算约束下最大化用户效用。
  • 系统采用分布式信用机制,用户在多个服务器上维护余额,避免银行基础设施中的单点故障。
  • 在由 22 台主机组成的集群(位于帕洛阿尔托和布里斯托)上部署了原型系统,使用普通硬件(450 MHz x86,100 MB/s 以太网),以评估性能和可扩展性。

实验结果

研究问题

  • RQ1分布式市场机制是否能在无需频繁用户投标的情况下实现低延迟资源分配?
  • RQ2与传统的比例共享或预留机制相比,持续投标在经济效率和系统开销方面表现如何?
  • RQ3与集中式市场机制相比,去中心化的拍卖师在多大程度上提升了可扩展性和可靠性?
  • RQ4在标准计算环境中集成基于市场的分配层会带来多大的性能开销?
  • RQ5最优响应投标策略是否能有效优化用户在多个分布式市场中的效用,且用户干预极少?

主要发现

  • Tycoon 在小于 30 秒内完成了对集群中全部 22 台主机的资源重分配,展示了在动态负载下低延迟的资源重构能力。
  • 与非 Tycoon 主机相比,系统在典型任务上的开销不足 5%,表明性能影响极小。
  • 原型系统可扩展至支持最多 500 台主机和 24 个同时活跃用户,主机-用户组合总数达 12,000,表明具有强大的水平可扩展性。
  • 即使没有显式用户投标,Tycoon 仍通过允许代理基于可用信用和市场信号进行优化,促进了高效的资源使用。
  • 去中心化的拍卖师模型提升了系统弹性,单个拍卖师的故障不会影响其他主机的资源分配。
  • 持续投标模式通过让用户一次性提交投标后无需再关注,显著降低了用户负担,同时仍实现了及时且高效的资源分配。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。