QUICK REVIEW

[論文レビュー] Real-time Artificial Intelligence for Accelerator Control: A Study at the Fermilab Booster

Jason St. John, T. C. Herwig|arXiv (Cornell University)|Nov 14, 2020

Distributed and Parallel Computing Systems参考文献 55被引用数 39

ひとこと要約

本論文では、実加速器データを用いて訓練された代替機械学習モデルを用いて、フェルミラブブースターの勾配磁石電源（GMPS）のリアルタイム強化学習（RL）ベースの制御システムを提示する。このシステムは、安全にRLエージェントを訓練できる代替モデルを活用し、FPGAにコンパイル・デプロイされて低遅延で安定した制御を実現する。フェルミラブでFPGAファームウェare上に実装されたMLベースの制御アルゴリズムとしては初の試みであり、初期結果では1ミリ秒未塔の応答時間と、規制精度が10倍向上する見通しが得られている。

ABSTRACT

We describe a method for precisely regulating the gradient magnet power supply at the Fermilab Booster accelerator complex using a neural network trained via reinforcement learning. We demonstrate preliminary results by training a surrogate machine-learning model on real accelerator data to emulate the Booster environment, and using this surrogate model in turn to train the neural network for its regulation task. We additionally show how the neural networks to be deployed for control purposes may be compiled to execute on field-programmable gate arrays. This capability is important for operational stability in complicated environments such as an accelerator facility.

研究の動機と目的

フェルミラブブースターの勾配磁石電源（GMPS）のリアルタイム人工知能制御システムを、強化学習を用いて開発すること。
ヒューリスティック制御に依存するのを減らし、データ駆動型で適応的学習を行う手法に置き換えること。
訓練されたRLエージェントをFPGAにデプロイすることで、高速加速器環境における低遅延で安定した制御を実現すること。
実加速器データに基づいて訓練された代替モデルを用いた安全で高精度なトレーニングパイプラインを実証すること。
既存の制御システムと比較して、規制精度を10倍向上させること。

提案手法

実フェルミラブブースター加速器データを用いて、GMPSの挙動を高精度に再現するニューラルネットワーク代替モデルを訓練すること。
代替モデルを安全で高速な環境として活用し、実世界へのデプロイ前にRLエージェントのトレーニングと評価を実施すること。
モデルフリーのディープ強化学習（特にPPOおよびSACアルゴリズム）を用いて、リアルタイム意思決定を実現するオンライン制御エージェントを訓練すること。
hls4mlなどのツールを用いて、FPGAに最適化された推論カーネルを生成するため、訓練済みRLポリシーをハードウェア互換コードにコンパイルすること。
FPGAにデプロイされたモデルを、既存のブースター制御システムに統合し、高速なデータインジェクションとリアルタイム制御を実現すること。
事前学習済みで静的であるRLモデルを用いたFPGAテストベンチを用いて、システムを検証し、遅延、安定性、応答時間の評価を実施すること。

実験結果

リサーチクエスチョン

RQ1実加速器データに基づいて訓練された代替機械学習モデルは、安全なRLトレーニングのため、GMPSのダイナミクスを高精度に再現できるか？
RQ2代替モデルを用いたシミュレーション環境でトレーニングされた強化学習エージェントは、ハードウェアにデプロイされた環境でも安定したリアルタイム制御を達成できるか？
RQ3加速器施設でFPGAに直接コンパイル・実行された場合、RLベースの制御システムの実現可能な遅延と安定性はどの程度か？
RQ4伝統的な手動チューニング制御手法と比較して、RLベースの制御システムの規制精度と応答時間の性能はどのように異なるか？
RQ5既存の加速器制御インfraにML制御を統合しても、運用上の不安定性や遅延を引き起こさずに実現可能か？

主な発見

代替モデルはGMPSのダイナミクスを高精度に再現でき、シミュレーション内でのRLエージェントの安全かつ効率的なトレーニングを可能にした。
代替モデル上でトレーニングされたRLエージェントは、FPGAテストベンチ評価において安定した制御行動を示し、応答時間が1ミリ秒未塔であった。
フェルミラブ加速器施設で、FPGAファームウェア上に初めてMLベースの制御アルゴリズムがコンパイル・デプロイされた。これはリアルタイムAI制御分野における重要なマイルストーンである。
FPGA上での実行に伴うランタイム遅延が存在しないため、システムは1ミリ秒未塔の応答時間を達成した。これは高速加速器環境における運用安定性にとって極めて重要である。
初期結果から、RLベースの制御システムは、現在の手法と比較して予想で10倍の規制精度向上が達成可能であると示唆されている。
FPGAにデプロイされたエージェントが既存のブースター制御システムに正常に統合されたことが確認され、相互運用性とリアルタイムデータインジェクション能力が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。