QUICK REVIEW

[论文解读] Cloud Scheduler: a resource manager for distributed compute clouds

P. Armstrong, Ashok Agarwal|arXiv (Cornell University)|Jun 30, 2010

Cloud Computing and Resource Management参考文献 7被引用 44

一句话总结

Cloud Scheduler 是一种虚拟机资源管理器，可自动在分布式 IaaS 云环境中部署和管理用户自定义的虚拟机，适用于高性能计算（HTC）工作负载。它与 Condor 作业调度器集成，动态地在商业云和科研云中配置虚拟机，实现用户配置最少的无缝作业执行，并在天文学和粒子物理学工作负载中成功运行了超过 9,000 个作业。

ABSTRACT

The availability of Infrastructure-as-a-Service (IaaS) computing clouds gives researchers access to a large set of new resources for running complex scientific applications. However, exploiting cloud resources for large numbers of jobs requires significant effort and expertise. In order to make it simple and transparent for researchers to deploy their applications, we have developed a virtual machine resource manager (Cloud Scheduler) for distributed compute clouds. Cloud Scheduler boots and manages the user-customized virtual machines in response to a user's job submission. We describe the motivation and design of the Cloud Scheduler and present results on its use on both science and commercial clouds.

研究动机与目标

简化在基础设施即服务（IaaS）云环境中大规模、复杂科学应用程序的部署和管理。
解决在高性能计算（HTC）环境中，跨多个云服务提供商管理数百台用户自定义虚拟机的复杂性。
使研究人员能够提交作业而无需处理底层云管理，通过抽象虚拟机的配置和部署来实现。
支持异构云环境，包括商业云（如 Amazon EC2）和面向科研的专用云。
通过将应用程序封装在虚拟机中并由集中式调度器进行管理，提升科学工作流的可移植性和可重现性。

提出的方法

Cloud Scheduler 与 Condor HTC 作业调度器集成，用于在分布式 IaaS 云环境中管理作业提交和资源分配。
用户通过指定虚拟机镜像位置、CPU 架构、内存、存储和网络需求等自定义属性提交作业。
作业提交后，Cloud Scheduler 检测所需的虚拟机类型，并向云提供商（如 Amazon EC2 或 Nimbus）请求启动指定的虚拟机镜像。
启动的虚拟机启动 Condor startd 守护进程，通过 CCB（Condor 连接代理）向 Condor 中央管理器发布自身信息，从而可供作业分发。
该系统支持多种云后端，包括 Amazon EC2、Nimbus、OpenNebula 和 Eucalyptus，并具备扩展性以支持未来新增的云提供商。
虚拟机镜像存储在集中式或分布式存储库中，用户可在部署前对其进行自定义。

实验结果

研究问题

RQ1如何在多个分布式 IaaS 云环境中，对科学 HTC 工作负载的用户自定义虚拟机进行抽象化和自动化管理？
RQ2像 Condor 这类集中式调度器在多大程度上可以扩展以管理具有异构配置的动态云托管虚拟机？
RQ3在地理分布的云资源上运行 I/O 密集型科学工作负载时，会面临哪些性能和可靠性挑战？
RQ4当在具有不同 CPU 和网络特性的远程云实例上运行作业时，如何保持数据的可移植性和一致性？
RQ5在商业云和面向科研的云基础设施上扩展 HTC 工作负载时，主要的运行瓶颈是什么？

主要发现

Cloud Scheduler 在一周内成功管理了超过 2,000 个持续七小时的作业，运行于 Amazon EC2 及其他云平台，证明了其可扩展性和可靠性。
该系统实现了对三个云站点（UVic、NRC 和 Amazon EC2）的无缝集成，构建了一个统一的分布式 HTC 环境，其性能与传统集群完全一致。
由于网络延迟，EC2 上的数据库 I/O 性能显著下降；通过将数据库复制到 Amazon S3 解决了该问题，使作业运行时间减少了约 50%。
在配备旧款 AMD CPU 的标准 EC2 实例上运行产生的数据与参考数据存在差异，这是由于浮点计算不一致所致；通过切换到配备 Intel 处理器的 EC2 '高 CPU' 实例后问题得以解决。
系统实现了高容错能力和动态资源配置，虚拟机在请求时可自动启动并主动向调度器通告自身。
在 CANFAR 天文项目中，系统支持了超过 9,000 个作业和 33,000 核心小时的计算，验证了其在真实科学工作流中的实用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。