QUICK REVIEW

[论文解读] Real-time Artificial Intelligence for Accelerator Control: A Study at the Fermilab Booster

Jason St. John, T. C. Herwig|arXiv (Cornell University)|Nov 14, 2020

Distributed and Parallel Computing Systems参考文献 55被引用 39

一句话总结

本文提出了一种基于强化学习（RL）的实时控制系统，用于费米实验室加速器 Booster 的梯度磁铁电源（GMPS），通过使用基于真实加速器数据训练的代理机器学习模型，安全地训练 RL 代理。该系统已编译并部署在 FPGA 上，实现低延迟、稳定的控制，成为费米实验室首次在 FPGA 固件中实现的基于机器学习的控制算法，初步结果表明其具备亚毫秒级响应时间，并有望将调节精度提升十倍。

ABSTRACT

We describe a method for precisely regulating the gradient magnet power supply at the Fermilab Booster accelerator complex using a neural network trained via reinforcement learning. We demonstrate preliminary results by training a surrogate machine-learning model on real accelerator data to emulate the Booster environment, and using this surrogate model in turn to train the neural network for its regulation task. We additionally show how the neural networks to be deployed for control purposes may be compiled to execute on field-programmable gate arrays. This capability is important for operational stability in complicated environments such as an accelerator facility.

研究动机与目标

开发一种基于强化学习的实时人工智能控制系统，用于费米实验室 Booster 加速器的梯度磁铁电源（GMPS）。
通过采用数据驱动、自适应学习方法替代启发式控制，减少对专家手动调参的依赖。
通过将训练好的 RL 代理部署在 FPGA 上，实现在高速加速器环境中低延迟、稳定的控制。
展示一种安全、高保真的训练流程，利用基于真实加速器数据训练的代理模型，在在线部署前进行安全模拟训练。
在现有 GMPS 控制系统的基础上，实现调节精度十倍的提升。

提出的方法

在真实费米实验室 Booster 加速器数据上训练神经网络代理模型，以高保真度模拟 GMPS 的行为。
将代理模型用作安全、高速的仿真环境，在真实部署前用于训练和评估强化学习（RL）代理。
采用无模型深度强化学习（具体为 PPO 和 SAC 算法）训练在线控制代理，实现实时决策。
使用 hls4ml 等工具将训练好的 RL 策略编译为硬件兼容代码，生成 FPGA 优化的推理内核。
将部署在 FPGA 上的模型集成到现有的 Booster 控制系统中，实现高速数据采集与实时执行。
通过 FPGA 测试平台使用预训练的静态 RL 模型对系统进行验证，评估延迟、稳定性与响应时间。

实验结果

研究问题

RQ1基于真实加速器数据训练的代理机器学习模型能否准确复现 GMPS 的动态特性，以实现安全的 RL 训练？
RQ2在仿真环境中（通过代理模型）训练的强化学习代理是否能在硬件部署环境中实现稳定、实时的 GMPS 控制？
RQ3当 RL 控制系统被编译并直接在加速器设施的 FPGA 上执行时，其可实现的延迟与稳定性如何？
RQ4与传统手动调参的控制方法相比，基于 RL 的控制系统的调节精度与响应时间表现如何？
RQ5在不引入操作不稳定性或延迟的前提下，能否将机器学习控制集成到现有的加速器控制基础设施中？

主要发现

代理模型成功以高保真度模拟了 GMPS 的动态特性，使得在仿真中安全高效地训练 RL 代理成为可能。
在 FPGA 测试平台评估中，基于代理模型训练的 RL 代理表现出稳定的控制行为，响应时间低于 1 毫秒。
首次成功将基于机器学习的控制算法编译并部署在费米实验室加速器综合体的 FPGA 固件中，标志着实时人工智能控制的重要里程碑。
由于 FPGA 上无运行时延迟，系统实现了亚毫秒级响应时间，这对高速加速器环境中的运行稳定性至关重要。
初步结果表明，基于 RL 的控制系统有望实现相比现有方法十倍的调节精度提升。
成功演示了将 FPGA 部署的代理集成到现有 Booster 控制系统中，证实了其兼容性与实时数据采集能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。