[論文レビュー] EPIC: An Energy-Efficient, High-Performance GPGPU Computing Research Infrastructure
EPICはNTNUにIdunクラスタに統合された大規模でエネルギー効率の高いGPGPU計算基盤を提供し、158のGPUを横断する広範な並列ワークロードと迅速なHPC/AI実験を可能にします。
The pursuit of many research questions requires massive computational resources. State-of-the-art research in physical processes using simulations, the training of neural networks for deep learning, or the analysis of big data are all dependent on the availability of sufficient and performant computational resources. For such research, access to a high-performance computing infrastructure is indispensable. Many scientific workloads from such research domains are inherently parallel and can benefit from the data-parallel architecture of general purpose graphics processing units (GPGPUs). However, GPGPU resources are scarce at Norway's national infrastructure. EPIC is a GPGPU enabled computing research infrastructure at NTNU. It enables NTNU's researchers to perform experiments that otherwise would be impossible, as time-to-solution would simply take too long.
研究の動機と目的
- 研究とプロトタイピングのためのノルウェーにおけるGPGPU資源の不足に対処する。
- NTNUのIdunクラスタと統合された、拡張性が高くエネルギー効率の良いGPGPU計算プラットフォームを提供する。
- 複数の領域にわたるHPC、AI、およびデータ集約型ワークロードの迅速なテストとプロトタイピングを可能にする。
- EPICが一般的資源では実現困難な大規模実験をどのように支援するかを示す。
- EPICによって促進される広範な研究への影響と成果(論文、修士論文、プロジェクト)を示す。
提案手法
- Idunクラスタのトポロジーとストレージ/ネットワークファブリック(InfiniBand、Lustre)を説明する。
- EPIC投資(EPIC1–EPIC5)とそれらのGPU/CPU/メモリ構成を詳述する(Table I)。
- 158のGPGPUがIdun内で単一の分散リソースとしてどのようにアクセスされるかを説明する。
- 世代を超えたハードウェア選択(P100、V100、A100、FPGA)と、それらがエネルギー効率の高いデータ並列ワークロードで果たす役割を論じる。
- 多様な研究ワークロードをサポートするための、帯域幅の高いインターコネクトと大容量メモリノードを備えたGPUの統合を強調する。
実験結果
リサーチクエスチョン
- RQ1NTNUは国内インフラストラクチャ内で広範な研究ニーズを支えるためにGPGPU資源をどのようにスケールさせ、連合させることができるか。
- RQ2Idunクラスタ内でエネルギー効率の高い高性能ワークロードをHPCとAIのために可能にする上で、EPICの役割は何か。
- RQ3EPICインフラストラクチャは、領域を超えた研究成果、再現性、迅速なプロトタイピングにどのような影響を与えるか。
- RQ4中央集権的でGPU豊富な資源であるEPICから観察される成果と、最も恩恵を受ける領域は何か。
主な発見
- EPICは5つの投資(EPIC1–EPIC5)にまたがる158のGPGPUで構成され、Idunクラスタ内で単一の分散リソースとしてアクセス可能です。
- EPICはIdunクラスタ全ノードの48%、GPGPUリソースの100%を構成しており、ノルウェーで主要なGPU対応インフラストラクチャとなっています。
- Idunクラスタは高スループット・低レイテンシのInfiniBandネットワークとLustreストレージを提供し、データの効率的な転送とGPUワークロードのスケールを実現します。
- EPICはエネルギー効率の高いリソース管理、ナノ磁性モデリング、3Dオブジェクト識別、ディープラーニング、計算シミュレーションなど、幅広い研究活動を支援してきました。
- このインフラは複数のPhD論文とMScプロジェクトを支え、教育と研究の幅広い影響を示しています。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。