[论文解读] The JASMIN super-data-cluster
JASMIN 超大规模数据集群为英国和欧洲的气候与地球系统科学界提供了一套每秒处理千万亿次计算能力、高性能计算与存储基础设施,整合了 9.3 PB 的存储空间和 370 多个计算核心,通过虚拟化、可扩展的服务,实现高效的数据管理、大规模分析以及对复杂数据集的灵活访问。该系统通过集成高性能计算、数据管理与基于云的基础设施即服务(IaaS)和软件即服务(SaaS)能力,支持协作式科研工作流。
The JASMIN super-data-cluster is being deployed to support the data analysis requirements of the UK and European climate and earth system modelling community. Physical colocation of the core JASMIN resource with significant components of the facility for Climate and Environmental Monitoring from Space (CEMS) provides additional support for the earth observation community, as well as facilitating further comparison and evaluation of models with data. JASMIN and CEMS together centrally deploy 9.3 PB of storage - 4.6 PB of Panasas fast disk storage alongside the STFC Atlas Tape Store. Over 370 computing cores provide local computation. Remote JASMIN resources at Bristol, Leeds and Reading provide additional distributed storage and compute configured to support local workflow as a stepping stone to using the central JASMIN system. Fast network links from JASMIN provide reliable communication between the UK supercomputers MONSooN (at the Met Office) and HECToR (at the University of Edinburgh). JASMIN also supports European users via a light path to KNMI in the Netherlands. The functional components of the JASMIN infrastructure have been designed to support and integrate workflows for three main goals: (1) the efficient operation of data curation and facilitation at the STFC Centre for Environmental Data Archival; (2) efficient data analysis by the UK and European climate and earth system science communities, and; (3) flexible access for the climate impacts and earth observation communities to complex data and concomitant services.
研究动机与目标
- 应对地理上分散、异构的科研群体在管理与分析超大规模气候与地球观测数据方面日益增长的挑战。
- 提供一个共享、可扩展且安全的计算环境,以克服孤立的数据与分析设施所带来的局限性。
- 整合数据管理、高性能计算与灵活的云服务,以支持科学分析以及可重用数据处理工作流的开发。
- 通过统一的数据与计算资源访问,促进气候建模、地球观测与影响评估群体之间的协作。
- 通过虚拟化与面向服务的基础设施(IaaS、PaaS、SaaS)实现高效、可复现且可扩展的数据密集型科研工作流。
提出的方法
- 在科学与技术设施委员会(STFC)罗斯福阿普尔顿实验室部署一个集中的 JASMIN 超大规模数据集群,配备 4.6 PB 的高速潘纳斯斯磁盘存储与 4.8 PB 的磁带存储,总容量可扩展至 9.3 PB。
- 通过低延迟网络集成 370 多个计算核心,以支持高性能数据处理与 HPC 工作负载。
- 采用 vCloud Director 实现虚拟化,以支持多租户环境,并为研究团队与机构提供基础设施即服务(IaaS)。
- 支持平台即服务(PaaS)与软件即服务(SaaS)模式,以支持自定义算法的开发与数据处理服务的部署。
- 建立与英国超算(MONSooN、HECToR)及国际合作伙伴(KNMI)的高速网络连接,实现数据与计算资源的无缝交换。
- 与地球系统网格联邦(ESGF)及CEDA的数据管理基础设施集成,以确保互操作性与长期数据可访问性。
实验结果
研究问题
- RQ1一个集中化的高性能数据基础设施如何降低跨分散机构的气候与地球系统科学研究协作的障碍?
- RQ2哪些架构与虚拟化策略能够实现对多样化科研群体的超大规模环境数据集的高效、可扩展且安全的访问?
- RQ3一个共享基础设施如何同时支持高性能计算与灵活、按需的数据处理服务(IaaS、PaaS、SaaS),以满足科研与商业应用需求?
- RQ4数据与计算资源的物理集中部署在多大程度上提升了数据分析性能与工作流效率?
- RQ5如何通过整合气候模型数据、观测数据与处理服务,优化模型评估与数据同化工作流?
主要发现
- JASMIN 与 CEMS 共同提供 9.3 PB 的可扩展存储空间,包括 4.6 PB 的高性能磁盘与 4.8 PB 的磁带,支持大规模数据管理与分析。
- 系统提供超过 370 个计算核心,并配备低延迟网络,可高效执行并行数据分析与 HPC 工作负载。
- 通过 vCloud Director 实现的虚拟化支持多租户环境,并提供基础设施即服务(IaaS),使研究团队能够配置隔离且可自定义的计算环境。
- 该基础设施支持平台即服务(PaaS)与软件即服务(SaaS)模式的部署,促进科学算法与数据处理工作流的开发与共享。
- 布里斯托、利兹与雷丁的远程 JASMIN 资源扩展了分布式访问能力,并支持工作流向中心系统的迁移。
- 该系统通过提供统一、可扩展且互操作的数据与计算环境,实现了气候建模、地球观测与影响评估群体之间的高效协作。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。