QUICK REVIEW

[论文解读] Machine Learning for Real-Time Processing of ATLAS Liquid Argon Calorimeter Signals with FPGAs

N. Chiedde|arXiv (Cornell University)|Nov 16, 2021

Particle Detector Development and Performance参考文献 7被引用 5

一句话总结

本文提出在FPGA上使用卷积神经网络（CNN）和循环神经网络（RNN）进行实时机器学习（ML），以提升HL-LHC时代ATLAS液氩量能器的能量重建性能。通过以<150 ns的延迟处理40 MHz的数字化信号，ML模型优于传统最优滤波方法，实现>90%的探测效率，并显著改善能量分辨率——尤其在高达200个相互作用的高堆积极端，传统方法性能下降时表现更优。

ABSTRACT

The ATLAS experiment at CERN measures energy of proton-proton (p-p) collisions with a repetition frequency of 40 MHz at the Large Hadron Collider (LHC). The readout electronics of liquid-argon (LAr) calorimeters are being prepared for high luminosity-LHC (HL-LHC) operation as part of the phase-II upgrade, anticipating a pileup of up to 200 simultaneous p-p interactions. The increase of the number of p-p interactions implies that calorimeter signals of up to 25 consecutive collisions overlap, making energy reconstruction more challenging. In order to achieve the goal of the HL-HLC, field-programmable gate arrays (FPGAs) are used to process digitized pulses sampled at 40 MHz in real time and different machine learning approaches are being investigated to deal with signal pileup. The convolutional and recurrent neural networks outperform the optimal signal filter currently in use, both in terms of assigning the reconstructed energy to the correct proton bunch crossing and in terms of energy resolution. The enhancements are focused on energy obtained from overlapping pulses. Because the neural networks are implemented on an FPGA, the number of parameters, resource usage, latency and operation frequency must be carefully analysed. A very good agreement is observed between neural network implementations in FPGA and software.

研究动机与目标

解决HL-LHC时代由于最多200次同时质子-质子碰撞导致的信号堆积极端引起的ATLAS液氩量能器能量分辨率下降问题。
开发基于FPGA的实时、低延迟信号处理方案，以应对来自36,000根光纤的250 Tbps数据带宽。
通过在模拟的HL-LHC数据上训练的深度学习模型，提升能量重建精度，超越当前的最优滤波器（OF）性能。
确保FPGA实现具备资源效率，并满足严格延迟（<150 ns）和频率（>480 MHz）约束，以兼容实时触发系统。

提出的方法

使用Keras和TensorFlow在模拟的HL-LHC数据（含噪声和堆积极端）上训练3-Conv和4-Conv CNN，将网络拆分为脉冲标记子网络和能量重建子网络。
采用两级CNN架构：首先通过3层或4层卷积网络检测能量沉积物（>240 MeV，即3σ噪声阈值），随后利用标记后的输入和原始输入重建能量。
评估两种RNN架构——普通RNN与LSTM——采用滑动窗口方法处理重叠信号序列，其中LSTM利用门控记忆单元以建模长期依赖关系。
使用VHDL实现CNN以获得低延迟性能，RNN则通过高层次综合（HLS）实现以优化高时钟频率，目标为Stratix-10 FPGA。
将FPGA结果与Keras软件推理结果对比验证，量化和LUT-based激活函数引入了微小偏差。
优化资源使用（DSPs、ALMs）、延迟、启动间隔和最大时钟频率，以满足实时触发需求。

实验结果

研究问题

RQ1在ATLAS LAr量能器中，CNN与RNN能否在高堆积极端条件下优于当前最优滤波器的能量分辨率？
RQ2在40 MHz采样率下，不同神经网络架构（CNN与RNN）在检测和重建重叠脉冲中的能量时表现如何？
RQ3基于FPGA的ML实现能在多大程度上在满足资源和频率约束的前提下保持精度与低延迟，以实现实时处理？
RQ4硬件量化和LUT-based激活函数对FPGA实现的ML模型与软件推理结果之间的保真度影响如何？
RQ5在保持150 ns以下延迟的实时处理条件下，FPGA上输入数据通道的最大可实现复用因子是多少？

主要发现

3-Conv和4-Conv CNN在240 MeV以上能量沉积物的检测效率超过90%，优于最优滤波器约80%的效率。
所有测试的神经网络模型——3-Conv CNN、4-Conv CNN、普通RNN和LSTM——在能量分辨率方面均优于最优滤波器，尤其在时间间隔较短的区域（信号重叠严重）表现更优。
最佳性能模型（如3-Conv CNN和LSTM）在沉积物间时间间隔为10–20 ns时，能量分辨率保持稳定，而最优滤波器性能显著下降。
FPGA实现的神经网络与软件推理结果高度一致，CNN输出相对偏差小于1%，RNN因量化和LUT-based激活函数导致偏差最高达2%。
所有实现的最大时钟频率范围为480–641 MHz，CNN实现支持6倍复用，普通RNN实现支持15倍复用，后者达到最高频率641 MHz但资源消耗更高。
采用滑动窗口的LSTM实现达到517 MHz时钟频率和12.8% DSP使用率，展示了高性能与资源效率之间的可行平衡，适用于高吞吐量处理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。