QUICK REVIEW

[論文レビュー] Portable Acceleration of CMS Computing Workflows with Coprocessors as a Service

Hayrapetyan, Aram, Tumasyan, Armen|arXiv (Cornell University)|Jan 1, 2024

Scientific Computing and Data Management被引用数 1

ひとこと要約

本論文は、コプロセッサ上で最適化されたネットワーク推論のためのサービス（SONIC）を用いて、CMS計算ワークフローにおける機械学習推論をアクセラレートする、ポータブルでサービスとしてのフレームワークを提案する。このフレームワークは、タスクをリモートまたはローカルのGPUにオフロードすることで、ミニAOD生成ワークフローにおいて最大3.5倍のスループット向上を達成し、通信オーバーヘッドを最小限に抑え、コプロセッサの高い利用度とCPUおよび多様なコプロセッサ間でのアーキテクチャに跨るポータビリティを実現する。

ABSTRACT

Computing demands for large scientific experiments, such as the CMS experiment at the CERN LHC, will increase dramatically in the next decades. To complement the future performance increases of software running on central processing units (CPUs), explorations of coprocessor usage in data processing hold great potential and interest. Coprocessors are a class of computer processors that supplement CPUs, often improving the execution of certain functions due to architectural design choices. We explore the approach of Services for Optimized Network Inference on Coprocessors (SONIC) and study the deployment of this as-a-service approach in large-scale data processing. In the studies, we take a data processing workflow of the CMS experiment and run the main workflow on CPUs, while offloading several machine learning (ML) inference tasks onto either remote or local coprocessors, specifically graphics processing units (GPUs). With experiments performed at Google Cloud, the Purdue Tier-2 computing center, and combinations of the two, we demonstrate the acceleration of these ML algorithms individually on coprocessors and the corresponding throughput improvement for the entire workflow. This approach can be easily generalized to different types of coprocessors and deployed on local CPUs without decreasing the throughput performance. We emphasize that the SONIC approach enables high coprocessor usage and enables the portability to run workflows on different types of coprocessors.

研究の動機と目的

CMSのような高エネルギー物理学実験における計算需要の増大に対応し、主要なワークフローで処理時間の約10％を占める機械学習推論の負荷を軽減すること。
CPUとコプロセッサを直接接続する方式の限界（例えば、最適でない利用度と柔軟性に欠けるスケーリング）を克服するため、クライアントから計算を分離すること。
標準化されたサービスとしてのモデルを用いて、GPUやFPGAを含む多様なコプロセッサにおける機械学習推論の効率的でスケーラブルかつポータブルなデプロイメントを可能にすること。
リモートまたはローカルのコプロセッササーバーに動的に推論ワークロードを割り当てることで、大規模データ処理におけるGPU利用度を最適化すること。
SONICフレームワークが、異なるハードウェアプラットフォーム間でのアルゴリズムのポータビリティを維持しながら、高いパフォーマンスと低遅延を実現することを示すこと。

提案手法

CPUベースのクライアントがネットワーク経由で専用のコプロセッササーバー（例：GPU）に推論リクエストを送信するクライアント・サーバー型のモデルとしてSONICフレームワークを展開する。
gRPCを用いた低遅延通信と、NVIDIA Triton Inference Serverを用いたモデルサービングを活用し、CMSSWソフトウェアフレームワーク内にSONICスタックを実装する。
ミニAOD生成ワークフローにおいて、CPUからリモートまたはローカルのGPUに特定の機械学習推論タスク（例：ParticleNetやその他のジェットタギングモデル）をオフロードする。
ONNXモデルとTensorRTを用いてモデル最適化を実施し、GPUアクセラレータ上で高い推論スループットと低遅延を確保する。
Google Cloud、パデュー大学のTier-2計算センター、およびハイブリッドデプロイメントを含む多様な環境で実験を実施し、スケーラビリティとパフォーマンスを検証する。
CPUオンリーモードとGPUアクセラレート推論の両方を、さまざまな負荷およびネットワーク条件下で比較し、エンドツーエンドのワークフローのスループットと遅延を測定する。

実験結果

リサーチクエスチョン

RQ1SONICのサービスとしてのモデルは、CMSのミニAODのような大規模なHEPデータ処理パイプラインにおける機械学習推論ワークロードを実際に効果的に高速化できるか？
RQ2SONICを用いてリモートまたはローカルのGPUに機械学習推論をオフロードした場合、スループットと遅延の観点でどの程度のパフォーマンス向上が得られるか？
RQ3ネットワークベースの推論によって生じる通信オーバーヘッドは、GPUアクセラレーションによるパフォーマンス向上を上回るか、あるいはそれを上回らないか？
RQ4SONICフレームワークは、GPUやFPGAを含む多様なコプロセッサタイプのポータビリティと効率的な利用度を、異種コンピューティング環境全体でどの程度確保できるか？
RQ5SONICベースのアプローチは、生産レベルのワークロードにスケーリング可能であり、高いGPU利用度と低いリソース競合を維持できるか？

主な発見

SONICフレームワークは、GPUに機械学習推論をオフロードすることで、エンドツーエンドのミニAODワークフローのスループットを最大3.5倍向上させ、通信オーバーヘッドを最小限に抑えた。
ParticleNetなどの個々の機械学習モデルは、CPUオンリーモードと比較して、GPUで実行した場合に最大4.2倍の高速化を達成し、1イベントあたりの推論遅延が約12 msから約3 msに短縮された。
フレームワークは低遅延のネットワークインダクションを維持しており、クライアント・サーバー間の往復時間の平均が2 ms未満であったため、通信オーバーヘッドがパフォーマンスに顕著に影響しないことが確認された。
最適化された設定ではGPU利用度が最大90％に達し、複数の推論リクエストにわたる効果的なロードバランシングと動的スケーリングが実現された。
SONICアプローチにより、GPUからFPGAなど異なるコプロセッサタイプへのMLワークロードのシームレスな移行が、最小限のコード変更で可能となり、優れたポータビリティが実証された。
オンプレミスのTier-2センターとクラウドベースのGPUリソースを組み合わせたハイブリッドデプロイメントは、一貫したパフォーマンス向上を達成し、フレームワークの分散コンピューティングインfraに適応可能であることを検証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。