[论文解读] Deep Learning at 15PF: Supervised and Semi-Supervised Classification for Scientific Data
本论文提出首个用于科学数据的15-PetaFLOP深度学习系统,基于基于Intel Xeon-Phi的HPC集群,采用混合同步-异步通信策略,在9,600个节点上实现训练扩展。该系统在1000万张高能物理数据集上实现了最先进分类准确率,并通过半监督学习成功定位了15TB气候数据集中的极端天气模式。
This paper presents the first, 15-PetaFLOP Deep Learning system for solving scientific pattern classification problems on contemporary HPC architectures. We develop supervised convolutional architectures for discriminating signals in high-energy physics data as well as semi-supervised architectures for localizing and classifying extreme weather in climate data. Our Intelcaffe-based implementation obtains $\sim$2TFLOP/s on a single Cori Phase-II Xeon-Phi node. We use a hybrid strategy employing synchronous node-groups, while using asynchronous communication across groups. We use this strategy to scale training of a single model to $\sim$9600 Xeon-Phi nodes; obtaining peak performance of 11.73-15.07 PFLOP/s and sustained performance of 11.41-13.27 PFLOP/s. At scale, our HEP architecture produces state-of-the-art classification accuracy on a dataset with 10M images, exceeding that achieved by selections on high-level physics-motivated features. Our semi-supervised architecture successfully extracts weather patterns in a 15TB climate dataset. Our results demonstrate that Deep Learning can be optimized and scaled effectively on many-core, HPC systems.
研究动机与目标
- 在多核HPC系统上实现可扩展的深度学习,用于科学模式分类。
- 解决在单节点训练能力无法覆盖的海量多变量科学数据集(TB至PB级别)上训练深度神经网络的挑战。
- 为高能物理和气候科学工作负载量身定制并优化监督与半监督深度学习架构。
- 通过节点组间的混合通信策略,在HPC平台上实现高性能与强可扩展性。
- 证明深度学习可在现代多核HPC系统上被有效优化与扩展,用于领域科学应用。
提出的方法
- 基于IntelCaffe实现定制化深度学习框架,针对Xeon-Phi架构进行优化,单节点性能达到约2 TFLOP/s。
- 采用混合通信策略:组内同步通信,组间异步通信,以减少空闲时间并提升可扩展性。
- 使用监督卷积神经网络(CNN)架构,基于三通道(量能器与轨迹数据)的2D探测器图像对高能物理事件进行分类。
- 应用半监督学习架构,从15TB气候数据集中提取极端天气模式,利用未标记数据提升定位与分类性能。
- 通过物理启发的选择方法预处理高能物理数据,从模拟的LHC碰撞中构建具有挑战性的1000万事件训练集。
- 使用快速模拟工具(Pythia与Delphes)为高能物理中的信号与背景类别生成真实感事件数据。
实验结果
研究问题
- RQ1深度学习能否在HPC系统上有效扩展至15-PetaFLOP性能,用于科学数据分类?
- RQ2混合同步-异步通信策略如何提升大规模深度学习训练中的可扩展性与性能?
- RQ3深度学习架构能否在高能物理事件分类中超越传统物理启发的特征选择方法?
- RQ4半监督学习能否有效识别大规模气候模拟数据集中的极端天气模式?
- RQ5在多核HPC平台上,深度学习在科学工作负载中存在哪些性能与准确率权衡?
主要发现
- 系统在9,600个Xeon-Phi节点上训练时,峰值性能达15.07 PFLOP/s,持续性能达13.27 PFLOP/s,证明其成功扩展至15-PetaFLOP水平。
- 监督式高能物理模型在1000万张图像数据集上实现了最先进分类准确率,优于基于高级物理启发特征的方法。
- 半监督气候模型成功从15TB气候数据集中提取并定位了极端天气模式,展示了其在大规模科学分析中的实用性。
- 基于IntelCaffe的实现使单个Cori Phase-II Xeon-Phi节点的性能达到约2 TFLOP/s,实现了高效的单节点性能。
- 混合通信策略在9,600个节点上实现了强可扩展性,持续性能达到11.41–13.27 PFLOP/s,证明该方法在大规模训练中的有效性。
- 结果表明,多核HPC平台可被有效用于领域科学中的深度学习,为科学发现开辟了新途径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。