QUICK REVIEW

[論文レビュー] Accelerated Charged Particle Tracking with Graph Neural Networks on FPGAs

Aneesh Heintz, Vesal Razavimaleki|arXiv (Cornell University)|Nov 30, 2020

Parallel Computing and Optimization Techniques参考文献 30被引用数 31

ひとこと要約

論文は、充電粒子追跡のためのグラフニューラルネットワークをOpenCLコプロセシングとhls4mlベースの2つのFPGA実装として提示し、CPUに対して顕著な速度向上を達成するとともに、LHCのFPGAベースL1トリガーでの潜在的利用を可能にします。

ABSTRACT

We develop and study FPGA implementations of algorithms for charged particle tracking based on graph neural networks. The two complementary FPGA designs are based on OpenCL, a framework for writing programs that execute across heterogeneous platforms, and hls4ml, a high-level-synthesis-based compiler for neural network to firmware conversion. We evaluate and compare the resource usage, latency, and tracking performance of our implementations based on a benchmark dataset. We find a considerable speedup over CPU-based execution is possible, potentially enabling such algorithms to be used effectively in future computing workflows and the FPGA-based Level-1 trigger at the CERN Large Hadron Collider.

研究の動機と目的

高エネルギー物理の加速追跡を実現するため、異種ハードウェアを用いて厳しいレイテンシとデータスループット要求を満たす動機付け.
FPGA上でグラフニューラルネットワークをセグメント分類に適用・実装.
benchmark TrackMLデータでリソース使用量、レイテンシ、物理性能を評価.
FPGAベース追跡をオンライントリガワークフローへ統合する可能性を示す.

提案手法

グラフ埋め込み検出ヒットに対するセグメント分類のためのinteraction-network(IN)モデルの2つのFPGA対応GNN実装.
OpenCL実装はCPU-FPGAコプロセッシングを用い、FPGA加速行列乘算と均一サイズへの入力グラフパディングを使用.
hls4ml実装はニューラルネットワークをFPGAファームウェアへ翻訳し、パイプライン処理、ストリーミング入力、待機を制御するリユースファクターを導入して遅延と並列性を調整.
エッジブロックとノードブロックは、ReLU活性化とエッジ分類用のシグモイド出力を備えた小さな多層パーセプトロンで構成されている.
入力には1つのモデルについてノード特徴量(r, phi, z)とエッジ特徴量(Delta r, Delta phi, Delta z, Delta R)が含まれる; 別のバリアントは基本的なエッジ特徴量のみを使用.
パフォーマンス指標にはリソース使用量、レイテンシ、およびROC-AUC (AUC) が含まれる.

実験結果

リサーチクエスチョン

RQ1GNNベースのセグメント分類によるトラック再構成をOpenCLとhls4mlを用いてFPGAハードウェア上で効率的に実装できるか?
RQ2OpenCLコプロセシングとhls4ml FPGA実装を比較した場合のリソース、レイテンシ、物理性能のトレードオフは?
RQ3モデルの精度とリユースファクターがFPGA実装のレイテンシとROC性能にどう影響するか?
RQ4TrackMLのようなデータセットでこれらのFPGA実装はCPUベース推論と比較してどれくらいの速度upを達成するか?
RQ5これらのFPGAアプローチはLHC Level-1トリガーシステムのサブマイクロ秒要件への統合に適しているか?

主な発見

OpenCL FPGA実装は、データ転送とI/Oを含む全イベントグラフのレイテンシを10 ms〜1 sの範囲で達成.
hls4ml実装は超低レイテンシを狙い、より小さなセクター化グラフの場合FPGA実行レイテンシは約650 ns〜1 μs.
同じモデルでCPUベース推論は著しく遅く、例えば graph_nets TensorFlow実装で pT>2 GeV グラフは約27 ms、PyTorchで pT>1 GeV で約86 ms、FPGA実装の大幅なスピードアップを示す.
OpenCLのリソース使用はデータ精度(8, 16, 32-bit)が低いほど低下し、レイテンシは最小pTとイベントサイズに比例して変動する、コプロセシング下でのデータサイズ柔軟性を示す.
hls4mlモデルはFP32全性能を、固定小数点表現で約12ビット程度で再現し、レイテンシは650 ns〜1 μsの範囲; リユースファクターを高くするとレイテンシが増えるがリソース使用を抑える.
CPUのみのワークフローと比較して、FPGAアプローチは顕著なスピードアップを提供しており、OpenCLベースワークフローのリソース使用を最適化し、さらなるレイテンシ低減を進行中.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。