[논문 리뷰] Cloud Scheduler: a resource manager for distributed compute clouds
Cloud Scheduler는 고성능 계산(HTC) 워크로드를 위한 분산 IaaS 클라우드에서 사용자 맞춤형 가상머신(VM)의 배포 및 관리를 자동화하는 가상머신 리소스 관리자이다. Condor 작업 스케줄러와 통합되어 상용 및 과학 클라우드에서 동적으로 VM을 프로비저닝하며, 최소한의 사용자 설정으로 원활한 작업 실행을 가능하게 하였고, 천문학 및 입자물리학 워크로드에서 9,000건 이상의 작업을 성공적으로 실행한 바 있다.
The availability of Infrastructure-as-a-Service (IaaS) computing clouds gives researchers access to a large set of new resources for running complex scientific applications. However, exploiting cloud resources for large numbers of jobs requires significant effort and expertise. In order to make it simple and transparent for researchers to deploy their applications, we have developed a virtual machine resource manager (Cloud Scheduler) for distributed compute clouds. Cloud Scheduler boots and manages the user-customized virtual machines in response to a user's job submission. We describe the motivation and design of the Cloud Scheduler and present results on its use on both science and commercial clouds.
연구 동기 및 목표
- 인프라로서의 서비스(IaaS) 클라우드에서 대규모 복잡한 과학 응용 프로그램의 배포 및 관리를 단순화하기 위해.
- 고성능 계산(HTC) 환경에서 여러 클라우드 제공업체를 통해 수백 대의 사용자 맞춤형 가상머신을 관리하는 복잡성을 해결하기 위해.
- 연구자가 저수준 클라우드 관리 없이도 VM 프로비저닝 및 구성의 추상화를 통해 작업을 제출할 수 있도록 하기 위해.
- 상용(예: Amazon EC2) 및 과학 전용 연구 클라우드를 포함한 이질적인 클라우드 환경을 지원하기 위해.
- 응용 프로그램을 VM에 봉인하고 중앙 집중식 스케줄러를 통해 관리하여 과학 워크플로우의 이식성과 재현 가능성을 향상시키기 위해.
제안 방법
- Cloud Scheduler는 분산 IaaS 클라우드에서 작업 제출 및 자원 할당을 관리하기 위해 Condor HTC 작업 스케줄러와 통합된다.
- 사용자는 VM 이미지 위치, CPU 아키텍처, 메모리, 스토리지 및 네트워크 요구 사항을 지정하는 사용자 정의 속성을 포함해 작업을 제출한다.
- 작업 제출 시 Cloud Scheduler는 필요한 VM 유형을 감지하고, Amazon EC2 또는 Nimbus와 같은 클라우드 제공업체에 지정된 VM 이미지를 부팅하도록 요청한다.
- 부팅된 VM은 Condor 시작 관리자(daemon)를 시작하고, CCB(Condor 연결 브로커링)를 사용해 Condor 중앙 관리자에게 자신을 광고하며 작업 디스패치 가능 상태가 된다.
- 시스템은 Amazon EC2, Nimbus, OpenNebula, Eucalyptus를 포함한 다수의 클라우드 백엔드를 지원하며, 향후 제공업체에 대한 확장성도 제공한다.
- VM 이미지는 중앙 또는 분산 저장소에 저장되며, 사용자가 배포 전에 사용자 정의할 수 있다.
실험 결과
연구 질문
- RQ1다양한 분산 IaaS 클라우드에서 과학적 HTC 워크로드를 위한 사용자 맞춤형 가상머신의 관리를 어떻게 추상화하고 자동화할 수 있는가?
- RQ2다양한 구성이 가능한 동적 클라우드 호스팅 VM을 관리하기 위해 중앙 집중식 스케줄러인 Condor는 어느 정도 확장될 수 있는가?
- RQ3지리적으로 분산된 클라우드 자원을 통해 입출력 집약적인 과학 워크로드를 실행할 때 발생하는 성능 및 신뢰성 도전 과제는 무엇인가?
- RQ4CPU 및 네트워크 특성이 상이한 원격 클라우드 인스턴스에서 작업을 실행할 경우, 데이터 이식성과 일관성을 어떻게 유지할 수 있는가?
- RQ5상용 및 과학 중심의 클라우드 인fra구조를 통해 HTC 워크로드를 확장할 때 주요 운영 병목 현상은 무엇인가?
주요 결과
- Cloud Scheduler는 한 주 동안 Amazon EC2 및 기타 클라우드에서 2,000건 이상의 7시간짜리 작업을 성공적으로 관리하여 확장성과 신뢰성을 입증했다.
- 시스템은 UVic, NRC, Amazon EC2의 세 개 클라우드 사이트를 하나의 분산 HTC 환경으로 통합하여 기존 클러스터와 동일한 성능을 달성했다.
- 네트워크 지연으로 인해 EC2에서 데이터베이스 입출력 성능이 크게 저하되었으며, 이를 해결하기 위해 데이터베이스를 Amazon S3로 복제함으로써 작업 실행 시간을 약 50% 감소시켰다.
- 이전 AMD 프로세서를 탑재한 표준 EC2 인스턴스에서 생성된 데이터는 기준 데이터와 다름을 보였는데, 이는 부동소수점 계산 불일치 때문이었으며, Intel 프로세서를 탑재한 EC2의 '고성능 CPU' 인스턴스로 전환함으로써 해결되었다.
- 시스템은 높은 장애 내성과 동적 프로비저닝을 달성하여, 요청 시 자동으로 VM이 부팅되고 스케줄러에 광고되는 것을 보장했다.
- CANFAR 천문학 프로젝트에서 시스템은 9,000건 이상의 작업과 33,000코어시간의 계산을 지원하여 실제 과학 워크플로우에서의 유용성을 검증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.