QUICK REVIEW

[论文解读] Reweighting simulated events using machine-learning techniques in the CMS experiment

Hayrapetyan, Aram, A. Tumasyan|arXiv (Cornell University)|Jan 1, 2024

Particle physics theoretical and experimental studies被引用 2

一句话总结

本文提出了一种在CMS实验中基于机器学习的重加权技术，可在不重新运行昂贵的探测器模拟的情况下，高效地将模拟的粒子碰撞事例重新校准至不同的物理模型或高阶计算结果。通过训练深度神经网络，从生成器层级的运动学变量中学习事件权重，该方法在维持单一高统计量模拟样本的同时，显著降低了CPU和存储成本，实现了对大型强子对撞机上顶夸克对产生过程的精确不确定性估计。

ABSTRACT

Data analyses in particle physics rely on an accurate simulation of particle collisions and a detailed simulation of detector effects to extract physics knowledge from the recorded data. Event generators together with a GEANT-based simulation of the detectors are used to produce large samples of simulated events for analysis by the LHC experiments. These simulations come at a high computational cost, where the detector simulation and reconstruction algorithms have the largest CPU demands. This article describes how machine-learning (ML) techniques are used to reweight simulated samples obtained with a given set of model parameters to samples with different parameters or samples obtained from entirely different models. The ML reweighting method avoids the need for simulating the detector response multiple times by incorporating the relevant information in a single sample through event weights. Results are presented for reweighting to model variations and higher-order calculations in simulated top quark pair production at the LHC. This ML-based reweighting is an important element of the future computing model of the CMS experiment and will facilitate precision measurements at the High-Luminosity LHC.

研究动机与目标

降低在LHC数据分析中为系统性不确定性估计而生成多个模拟事例样本的计算成本。
应对在高亮度LHC阶段预期增长的CPU和存储需求，届时模拟可能每年需要多达1600亿个事例。
通过利用高统计量的基准样本而非较小的、有限的样本，提高系统性不确定性评估的统计精度。
利用机器学习实现对模拟事例在不同物理参数和理论模型下的连续、高维重加权。

提出的方法

训练一个深度神经网络（DCTR），以学习基准模拟与具有不同参数或更高阶计算的目标模拟之间的似然比。
模型在事件样本的生成器层级运动学变量上进行训练，避免在训练过程中进行探测器模拟。
从网络输出中推导出事件权重，并将其应用于基准样本，以使其重新校准至目标分布。
该方法支持离散重加权（例如，改变部分子喷注辐射）和连续重加权（例如，调节底夸克碎片化参数）。
该方法可在不重新模拟探测器的情况下，实现从下一阶（NLO）到下一下一阶（NNLO）QCD计算的重加权。
训练好的模型可高效存储，并可无缝集成到分析工作流的任意阶段。

实验结果

研究问题

RQ1机器学习重加权能否减少LHC实验中为多个昂贵的探测器模拟而产生的需求？
RQ2基于机器学习的重加权在多大程度上能准确再现来自高阶计算或模型变化的系统性不确定性？
RQ3使用单一高统计量基准样本进行重加权，是否能优于传统方法中使用较小的专用样本？
RQ4与基于直方图的方法相比，机器学习重加权在多大程度上能保持事件运动学中的相关性和高维结构？
RQ5该方法能否推广至顶夸克对产生过程中连续参数变化和更高阶QCD计算？

主要发现

机器学习重加权方法能够以高保真度再现模型变化和高阶计算带来的系统性不确定性，显著减少了对多次探测器模拟的需求。
在顶夸克对产生过程中，从NLO到NNLO模拟的重加权实现了极低的精度损失，支持精确的截面测量。
通过避免为不同参数集重复进行探测器模拟和重建，该方法显著降低了计算成本。
与使用较小的、特定变化样本相比，使用高统计量基准样本显著提高了不确定性估计的统计精度。
与完整的事例样本相比，训练好的机器学习模型所占存储空间可忽略不计，显著减轻了数据管理负担。
该方法可无缝集成到分析工作流中，并支持连续参数依赖，实现对模拟变化的插值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。