Skip to main content
QUICK REVIEW

[논문 리뷰] The JASMIN super-data-cluster

Bryan Lawrence, Victoria Bennett|arXiv (Cornell University)|2012. 04. 16.
Distributed and Parallel Computing Systems참고 문헌 8인용 수 31
한 줄 요약

JASMIN 슈퍼데이터 클러스터는 영국 및 유럽 기후 및 지구시스템 과학 공동체를 위해 페타스케일의 고성능 컴퓨팅 및 스토리지 인프라를 제공하며, 9.3PB의 스토리지와 370개 이상의 컴퓨팅 코어를 가진 가상화되고 확장 가능한 서비스를 통합하여 효율적인 데이터 셀렉션, 대규모 분석 및 복잡한 데이터셋에 대한 민첩한 액세스를 가능하게 한다. 이는 통합된 HPC, 데이터 셀렉션, 그리고 클라우드 기반의 인프라-서비스(IAAS) 및 소프트웨어-서비스(SAAS) 기능을 통해 공동 연구 워크플로우를 지원한다.

ABSTRACT

The JASMIN super-data-cluster is being deployed to support the data analysis requirements of the UK and European climate and earth system modelling community. Physical colocation of the core JASMIN resource with significant components of the facility for Climate and Environmental Monitoring from Space (CEMS) provides additional support for the earth observation community, as well as facilitating further comparison and evaluation of models with data. JASMIN and CEMS together centrally deploy 9.3 PB of storage - 4.6 PB of Panasas fast disk storage alongside the STFC Atlas Tape Store. Over 370 computing cores provide local computation. Remote JASMIN resources at Bristol, Leeds and Reading provide additional distributed storage and compute configured to support local workflow as a stepping stone to using the central JASMIN system. Fast network links from JASMIN provide reliable communication between the UK supercomputers MONSooN (at the Met Office) and HECToR (at the University of Edinburgh). JASMIN also supports European users via a light path to KNMI in the Netherlands. The functional components of the JASMIN infrastructure have been designed to support and integrate workflows for three main goals: (1) the efficient operation of data curation and facilitation at the STFC Centre for Environmental Data Archival; (2) efficient data analysis by the UK and European climate and earth system science communities, and; (3) flexible access for the climate impacts and earth observation communities to complex data and concomitant services.

연구 동기 및 목표

  • 지리적으로 산재해 있는 다각도의 과학 공동체 간에 페타스케일 기후 및 지구 관측 데이터를 관리하고 분석하는 데 증가하는 과제를 해결한다.
  • 고립된 데이터 및 분석 시설의 한계를 극복하기 위해 공통의 확장 가능하고 안전한 컴퓨팅 환경을 제공한다.
  • 데이터 셀렉션, 고성능 컴퓨팅, 그리고 민첩한 클라우드 서비스를 통합하여 과학적 분석과 재사용 가능한 데이터 처리 워크플로우 개발을 지원한다.
  • 기후 모델링, 지구 관측, 영향 평가 공동체 간의 협업을 통합된 데이터 및 컴퓨팅 자원 액세스를 통해 촉진한다.
  • 가상화 및 서비스 기반 인프라(IaaS, PaaS, SaaS)를 통해 효율적이고 재현 가능하며 확장 가능한 데이터 집약적 과학 워크플로우를 실현한다.

제안 방법

  • STFC 러더포드 애플턴 래버러터리에 4.6PB의 고속 팬아사스 디스크 스토리지와 4.8PB의 테이프 스토리지가 포함된 중심 집중형 JASMIN 슈퍼데이터 클러스터를 구축하여 총 9.3PB로 확장 가능하다.
  • 저지연성 네트워킹을 통해 370개 이상의 컴퓨팅 코어를 통합하여 고성능 데이터 분석 및 HPC 워크로드를 지원한다.
  • vCloud Director를 사용한 가상화를 구현하여 다중 테넌시를 지원하고 연구 그룹 및 기관에 인프라-서비스(IAAS)를 제공한다.
  • 플랫폼-서비스(PaaS) 및 소프트웨어-서비스(SaaS) 모델을 지원하여 맞춤형 알고리즘 개발 및 데이터 처리 서비스 배포를 가능하게 한다.
  • 영국 슈퍼컴퓨터(MONSooN, HECToR) 및 국제 파artner(KNMI)와의 빠른 네트워크 연결을 통해 데이터 및 컴퓨팅 자원의 원활한 교환을 확보한다.
  • 지구시스템그리드연합(ESGF) 및 CEDA의 데이터 셀렉션 인프라와 통합하여 상호운용성과 장기적인 데이터 접근성을 보장한다.

실험 결과

연구 질문

  • RQ1중앙집중식 고성능 데이터 인프라는 분산된 기관 간의 협업 기후 및 지구시스템 과학 연구의 장벽을 어떻게 줄일 수 있는가?
  • RQ2어떤 아키텍처적 및 가상화 전략이 다양한 과학 공동체가 페타스케일 환경 데이터셋에 효율적이고 확장 가능하며 안전하게 액세스할 수 있도록 하는가?
  • RQ3공동 사용 인프라는 고성능 컴퓨팅과 동시에 민감한, 즉각적인 데이터 처리 서비스(IaaS, PaaS, SaaS)를 과학적 및 상업적 용도로 어떻게 지원할 수 있는가?
  • RQ4데이터 및 컴퓨팅 자원의 물리적 공재배치가 데이터 분석 성능과 워크플로우 효율성 향상에 어떤 역할을 하는가?
  • RQ5기후 모델 데이터, 관측 데이터, 처리 서비스의 통합은 모델 평가 및 데이터 융합 워크플로우를 어떻게 단순화하는가?

주요 결과

  • JASMIN과 CEMS는 9.3PB의 확장 가능한 스토리지(고성능 디스크 4.6PB, 테이프 4.8PB 포함)를 제공하여 대규모 데이터 셀렉션 및 분석을 지원한다.
  • 저지연성 네트워킹을 갖춘 370개 이상의 컴퓨팅 코어를 통해 병렬 데이터 분석 및 HPC 워크로드의 효율적 실행을 보장한다.
  • vCloud Director를 통한 가상화는 다중 테넌시를 가능하게 하며, 연구 그룹이 고립되고 사용자 정의 가능한 컴퓨팅 환경을 프로비저닝할 수 있는 인프라-서비스(IaaS)를 지원한다.
  • 이 인프라는 플랫폼-서비스(PaaS) 및 소프트웨어-서비스(SaaS) 모델의 배포를 지원하여 과학적 알고리즘 및 데이터 처리 워크플로우의 개발과 공유를 촉진한다.
  • 브리스톨, 리드, 리딩에 위치한 원격 JASMIN 리소스는 분산 액세스를 확장하고 워크플로우를 중심 시스템으로 이식하는 데 기여한다.
  • 기후 모델링, 지구 관측, 영향 평가 공동체 간의 효율적 협업을 가능하게 하기 위해 통합적이고 확장 가능하며 상호운용 가능한 데이터 및 컴퓨팅 환경을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.