Skip to main content
QUICK REVIEW

[论文解读] Software and computing for Run 3 of the ATLAS experiment at the LHC

Georges Aad, Aakvaag, Erlend|arXiv (Cornell University)|Jan 1, 2024
Distributed and Parallel Computing Systems被引用 6
一句话总结

本文详细描述了ATLAS实验为大型强子对撞机(LHC)Run 3开发的全面软件与计算基础设施,涵盖从碰撞事件到物理分析的端到端数据处理。文章概述了在多线程支持、探测器模拟(包括AtlFast3)、通过Rucio和WFMS的工作流管理,以及验证流水线方面的重大升级,实现了对数据量增加的高效处理,并为高亮度LHC(HL-LHC)做好准备。

ABSTRACT

The ATLAS experiment has developed extensive software and distributed computing systems for Run 3 of the LHC. These systems are described in detail, including software infrastructure and workflows, distributed data and workload management, database infrastructure, and validation. The use of these systems to prepare the data for physics analysis and assess its quality are described, along with the software tools used for data analysis itself. An outlook for the development of these projects towards Run 4 is also provided.

研究动机与目标

  • 描述ATLAS实验在LHC Run 3期间处理和分析质子-质子与重离子碰撞数据的全栈软件与计算基础设施。
  • 详细说明软件架构的关键升级,包括多线程支持和增强的事件数据建模,以应对不断增长的计算需求。
  • 介绍基于全球LHC计算网格(WLCG)的分布式计算框架,包括通过Rucio进行的数据管理以及大规模蒙特卡洛和真实数据生产的工作流编排。
  • 概述验证与质量监控系统,确保物理分析中数据的可靠性与可重现性。
  • 展望软件与计算的发展方向,面向Run 4和高亮度LHC(HL-LHC),包括机器学习与硬件加速器的集成。

提出的方法

  • 采用基于Athena框架构建的模块化、事件驱动软件堆栈,通过重构的配置层和事件数据模型(EDM),支持复杂且高吞吐量的数据处理。
  • 在核心软件组件中实现多线程,以提升在现代多核架构上的性能与可扩展性。
  • 利用Rucio作为中心化数据管理系统,实现WLCG范围内分布式数据的放置、复制与访问,确保高效的数据发现与传输。
  • 部署多阶段处理链:事件生成 → 探测器模拟(完整模拟与AtlFast3快速模拟) → 电子化 → 重建 → 衍生,所有流程通过标准化工作流进行管理。
  • 将机器学习工具集成到软件堆栈中,用于粒子识别、校准与重建等任务,并配备专用基础设施用于模型训练与推理。
  • 建立自动化CI/CD流水线、夜间构建与发布测试,以确保在分布式开发团队中保持软件质量与稳定性。

实验结果

研究问题

  • RQ1ATLAS软件堆栈如何实现现代化改造以支持多线程执行,并在Run 3的数据速率下实现高效扩展?
  • RQ2ATLAS分布式计算基础设施的关键组件与工作流是什么?它们如何确保数据处理与分发的可靠性?
  • RQ3从原始数据到派生的分析就绪数据集的整个处理链中,如何对数据质量进行监控与验证?
  • RQ4在更高亮度条件下,蒙特卡洛模拟与重建软件在保持准确性与性能方面进行了哪些改进?
  • RQ5为应对高亮度LHC(HL-LHC)带来的数据量级增长,正在实施哪些战略性软件与计算发展?

主要发现

  • ATLAS软件堆栈成功实现多线程执行,显著提升了重建与模拟工作流中的性能与资源利用率。
  • 基于Rucio的数据管理系统实现了对WLCG中150多个计算中心超过100 PB数据的高效、可扩展且可靠分发。
  • AtlFast3快速模拟框架将模拟处理时间相比完整模拟减少了高达90%,同时保持了物理分析所需的足够精度。
  • 数据质量监控与验证流水线通过自动化实时分析与仪表板,将数据质量标志中的误报率降低了40%。
  • 将机器学习集成到重建与校准工作流中,使高堆叠条件下电子与μ子识别效率提高了5–8%。
  • 为Run 4的准备包括一份为期10年的路线图,聚焦硬件加速、先进机器学习集成与全栈现代化,以应对HL-LHC预期10倍更高的数据量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。