Skip to main content
QUICK REVIEW

[논문 리뷰] The Application of Cloud Computing to Astronomy: A Study of Cost and Performance

G. Bruce Berriman, Ewa Deelman|arXiv (Cornell University)|2010. 10. 22.
Scientific Computing and Data Management참고 문헌 2인용 수 27
한 줄 요약

이 논문은 천문학 분야의 과학 워크플로우에 대해 아마존 EC2에서의 클라우드 컴퓨팅을 평가하며, 키퍼 광선 곡선의 주기도 계산과 같은 CPU 및 메모리 집약적인 작업에서 클라우드가 고성능 클러스터(HPC)보다 우수한 비용과 성능을 보임을 입증한다. 연구는 26.8시간 동안 총 303.06달러의 비용으로 210,000개의 광선 곡선 주기도 어트라스를 성공적으로 생성하였으며, 이는 외계행성 연구 분야에서 대량의 과학 데이터 처리에 대해 클라우드 컴퓨팅이 확장 가능하고 비용 효율적인 솔루션임을 보여준다.

ABSTRACT

Cloud computing is a powerful new technology that is widely used in the business world. Recently, we have been investigating the benefits it offers to scientific computing. We have used three workflow applications to compare the performance of processing data on the Amazon EC2 cloud with the performance on the Abe high-performance cluster at the National Center for Supercomputing Applications (NCSA). We show that the Amazon EC2 cloud offers better performance and value for processor- and memory-limited applications than for I/O-bound applications. We provide an example of how the cloud is well suited to the generation of a science product: an atlas of periodograms for the 210,000 light curves released by the NASA Kepler Mission. This atlas will support the identification of periodic signals, including those due to transiting exoplanets, in the Kepler data sets.

연구 동기 및 목표

  • 과학 워크플로우에 대해 아마존 EC2의 클라우드 컴퓨팅과 고성능 클러스터(HPC) 간의 비용과 성능을 평가하기 위해.
  • 특히 천문학 분야에서 어떤 과학 응용 프로그램이 성능과 비용 측면에서 클라우드 배포에 가장 큰 이점을 얻는지 규명하기 위해.
  • 키퍼 미션 광선 곡선의 주기도 어트라스라는 새로운 과학 제품을 생성하는 데 클라우드 자원을 활용하는 가능성과 가치를 입증하기 위해.
  • I/O 집약적, 메모리 제한적, CPU 집약적 워크플로우에 대해 클라우드 기반 처리와 전통적인 HPC 간의 성능을 비교하기 위해.
  • 과학 공동체가 상용 클라우드와 기관 내 HPC 자원 간 전략적 선택을 내리는데 도움이 되도록 정보를 제공하기 위해.

제안 방법

  • 세 가지 다른 과학 워크플로우를 평가: Montage(I/O 집약적 이미지 모자이킹), Broadband(메모리 집약적 지질학 시뮬레이션), Epigenome(CPU 집약적 DNA 매핑).
  • 각 워크플로우를 아마존 EC2에서 실행하고, NCSA 소속의 Abe HPC 클러스터와의 런타임, 비용, 자원 활용도를 비교하였다.
  • 표준화된 입력 데이터를 사용하여 벽시계 시간, 총 CPU 시간, 입력/출력 크기, 금전적 비용을 측정하였다.
  • EC2에서 3가지 알고리즘(Lomb-Scargle, Plavchan, 및 자체 개발 방법)을 사용해 총 210,664개의 키퍼 광선 곡선에 대한 포괄적인 주기도 어트라스를 생성하였다.
  • 병렬로 128개의 가상 프로세서를 할당하였으며, 고정된 주기 샘플링(0.04–16.75일, 0.001일 간격)을 적용하고 총 처리 시간과 비용을 추적하였다.
  • 계산, 데이터 전송, 스토리지 비용의 분석을 통해 비용 구성 요소를 분석하고 확장성 및 즉각적인 프로비저닝의 이점을 평가하였다.

실험 결과

연구 질문

  • RQ1CPU 집약적, 메모리 집약적, I/O 집약적 과학 워크플로우 중에서 아마존 EC2에서 HPC 클러스터 대비 가장 뛰어난 성능과 비용 효율성을 달성하는 유형은 무엇인가?
  • RQ2대규모 천문학적 데이터 처리, 예를 들어 키퍼 광선 곡선의 주기도 계산에 대해 클라우드 기반 처리의 성능은 전통적인 HPC와 어떻게 비교되는가?
  • RQ3상용 클라우드에서 대규모 과학 데이터 세트를 처리할 때 지배적인 비용 구성 요소(계산, 데이터 전송, 스토리지)는 무엇인가?
  • RQ4클라우드 컴퓨팅은 공개 천문학 데이터 세트에서 유형의 복잡한 새로운 과학 제품을 생성하는 데 효과적으로 기여할 수 있는가?
  • RQ5계산 요구 사항이 다양한 과학 워크플로우에 대해 상용 클라우드와 기관 내 HPC 시스템 간의 상호 교환 조건은 무엇인가?

주요 결과

  • 클라우드는 CPU 집약적 및 메모리 제한적 워크플로우에서 HPC 클러스터를 초월하여 성능을 냈으며, Epigenome와 Broadband 워크플로우는 EC2에서 뚜렷한 성능 향상을 보였다.
  • I/O 집약적 워크플로우인 Montage는 높은 I/O 지연으로 인해 EC2에서 성능이 열악했으며, 이는 고속 네트워크와 병렬 파일 시스템을 갖춘 HPC 클러스터가 I/O 집약적 작업에 여전히 뛰어난 성능을 발휘함을 확인한다.
  • 210,664개의 키퍼 광선 곡선에 대한 주기도 어트라스는 128개의 EC2 프로세서를 사용해 총 26.8시간 만에 성공적으로 생성되었으며, 총 비용은 303.06달러였다.
  • 계산 비용은 총 비용의 96.2%인 291.58달러를 차지했으며, 출력 데이터 76.52GB로 인해 데이터 전송 비용도 11.48달러로 상당히 높았다.
  • 클라우드는 즉각적인 프로비저닝과 빠른 작업 스케줄링을 가능하게 하여 전통적인 그리드 시스템 대비 지연을 줄였으며, 이는 시간 민감한 과학 분석에 매우 중요하다.
  • 낮은 절대 비용에도 불구하고, 연구는 비용이 데이터 볼륨과 매개변수 공간에 따라 비례 증가하므로, 매우 대규모 또는 장기간 실행되는 계산에는 상용 클라우드가 최적의 선택이 아닐 수 있음을 경고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.