Skip to main content
QUICK REVIEW

[论文解读] Ad hoc Cloud Computing: From Concept to Realization

Gary A. McGilvary, Adam Barker|arXiv (Cornell University)|May 29, 2015
Caching and Content Delivery参考文献 6被引用 25
一句话总结

本文提出首个端到端的即兴云计算框架,通过虚拟化技术和受BOINC启发的协调机制,动态整合现有基础设施中零散可用、非独占且不可靠的资源——如企业或个人计算机——实现资源池化。该框架在真实主机动态变化环境下实现了高达93.3%的任务完成可靠性,并在存在客户机故障的情况下,性能仍可与Amazon EC2相媲美。

ABSTRACT

This paper presents the first complete, integrated and end-to-end solution for ad hoc cloud computing environments. Ad hoc clouds harvest resources from existing sporadically available, non-exclusive (i.e. primarily used for some other purpose) and unreliable infrastructures. In this paper we discuss the problems ad hoc cloud computing solves and outline our architecture which is based on BOINC.

研究动机与目标

  • 解决从不可靠、非独占且间歇性可用的主机资源中构建可靠、可扩展云基础设施的挑战。
  • 在无需专用基础设施的前提下提供云服务,降低运营成本并提高现有IT资产利用率。
  • 确保在主机故障或动态变化情况下仍能维持任务连续性,且不干扰主机上的应用程序。
  • 支持多样化的负载类型,包括I/O、内存和磁盘密集型任务,超越传统以CPU为主的志愿计算场景。
  • 提供PaaS抽象,隐藏底层基础设施复杂性,同时通过VM控制实现类似IaaS的访问能力。

提出的方法

  • 系统使用集中式即兴服务器来管理跨分布式主机的任务提交、调度和状态跟踪。
  • 每个主机运行一个即兴客户端,负责管理虚拟机(客户机)并向服务器报告资源和状态信息。
  • 任务被调度到按逻辑分组的虚拟机上,这些组称为云盒,每个云盒提供特定的执行环境(如MATLAB或BLAST)。
  • 通过基于主机可靠性公式的虚拟机快照迁移实现云连续性机制:当主机无法访问时,服务器将在新主机上恢复快照。
  • 通过轻量级虚拟化和隔离云工作负载,避免对主机进程造成干扰。
  • 通过向用户暴露虚拟机IP地址,系统支持PaaS及潜在的IaaS扩展。

实验结果

研究问题

  • RQ1当运行在间歇性可用且不可靠的主机上时,如何可靠地维持云服务?
  • RQ2哪些机制可确保在主机故障或动态变化下实现任务连续性和数据一致性?
  • RQ3如何在不干扰主工作负载的前提下,高效调度并隔离异构、非专用主机上的云工作负载?
  • RQ4在真实基础设施动态变化条件下,即兴云在多大程度上可实现与Amazon EC2等商业云相当的性能?
  • RQ5是否可以构建一个统一、端到端的即兴云框架,将虚拟化、可靠性与调度整合于单一、一致的架构中?

主要发现

  • 基于30个节点的真实主机可用性数据(来自36个月Nagios监控周期)评估,即兴云原型实现了高达93.3%的任务完成可靠性。
  • 即使在执行过程中一个或多个即兴客户机发生故障,系统在多种工作负载下仍表现出与Amazon EC2相当的性能。
  • 主机可靠性公式有效指导了初始任务部署的最优主机选择,显著提升了整体系统韧性。
  • 基于快照的迁移机制实现了主机故障后的透明恢复,无需应用层检查点机制即可维持任务连续性。
  • 该架构成功支持了超越CPU密集型任务的多样化工作负载,包括I/O和内存密集型应用。
  • 原型在局域网环境下证明了可行性与可扩展性,未来计划扩展至广域网及生产环境。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。