[论文解读] Better Process Mapping and Sparse Quadratic Assignment
本文提出了一种多级、稀疏的二次分配问题(QAP)方法,用于高性能过程映射,该方法利用了分层通信拓扑结构和稀疏通信模式。通过将平衡图划分与拓扑感知的模型构建及优化的局部搜索相结合,该方法在收敛速度上显著提升,并且在使用分层感知的多节模型构建时,解决方案质量最高可提高56.1%,优于以往的启发式方法。
Communication and topology aware process mapping is a powerful approach to reduce communication time in parallel applications with known communication patterns on large, distributed memory systems. We address the problem as a quadratic assignment problem (QAP), and present algorithms to construct initial mappings of processes to processors, and fast local search algorithms to further improve the mappings. By exploiting assumptions that typically hold for applications and modern supercomputer systems such as sparse communication patterns and hierarchically organized communication systems, we obtain significantly more powerful algorithms for these special QAPs. Our multilevel construction algorithms employ perfectly balanced graph partitioning techniques and exploit the given communication system hierarchy in significant ways. We present improvements to a local search algorithm of Brandfass et al. (2013), and further decrease the running time by reducing the time needed to perform swaps in the assignment as well as by carefully constraining local search neighborhoods. We also investigate different algorithms to create the communication graph that is mapped onto the processor network. Experiments indicate that our algorithms not only dramatically speed up local search, but due to the multilevel approach also find much better solutions in practice.
研究动机与目标
- 解决在具有已知通信模式的分布式内存系统中,大规模并行应用通信开销最小化的问题。
- 通过利用稀疏通信模式和分层硬件拓扑结构,提升过程映射的效率和解决方案质量。
- 为二次分配问题(QAP)开发更快的局部搜索算法,采用受限邻域和优化的交换评估方法。
- 研究不同的模型构建策略(特别是递归二分法与分层感知多节法)对最终映射质量的影响。
- 通过在线距离计算和稀疏矩阵表示,实现支持最多2^19个核心的可扩展过程映射。
提出的方法
- 将过程映射建模为稀疏二次分配问题(QAP),使用通信矩阵C和拓扑代价矩阵D分别表示通信量和处理器间距离。
- 采用多级框架,结合完全平衡的图划分与尊重系统物理拓扑层次结构的分层多节算法。
- 提出一种新型局部搜索算法,采用N10邻域结构,通过通信图结构减少交换评估时间并约束搜索空间。
- 使用通信矩阵的稀疏表示和在线距离计算,实现超越主内存限制的可扩展性。
- 应用两种模型构建策略:递归二分法(RB)和分层感知多节法(RMS),其中RMS在通信图构建中显式整合系统拓扑信息。
- 在KaHIP图划分框架内实现并评估该方法,将所有组件整合为统一的过程映射流水线。
实验结果
研究问题
- RQ1如何通过利用稀疏通信模式和分层拓扑结构,提升大规模HPC系统中过程映射的质量与效率?
- RQ2通过优化邻域探索和更快的交换评估,局部搜索性能最多可提升多少?
- RQ3模型构建算法的选择(递归二分法与分层感知多节法)对过程映射流水线最终解决方案质量的影响如何?
- RQ4当完整距离矩阵超出内存容量时,在线距离计算是否能够实现支持最多2^19个核心的可扩展过程映射?
- RQ5与基线启发式方法(如Müller-Merbach和Brandfass等)相比,所提出的多级方法在性能上相对提升了多少?
主要发现
- 采用分层感知模型构建(RMS)的TopDown+N10算法相比使用递归二分法(RB)的Müller-Merbach基线,解决方案质量最高提升56.1%。
- 基于RMS模型构建的恒等映射相比使用RB的Müller-Merbach,解决方案质量提升51.6%,证明了拓扑感知模型构建的显著影响。
- 采用N10邻域的局部搜索通过显著优化交换评估并约束搜索空间,大幅缩短运行时间,实现更快收敛。
- 在线距离计算使系统能够处理最多2^19个进程的问题,克服了存储完整距离矩阵的内存限制。
- 结合高质量划分与拓扑感知模型构建的多级构建方法,在所有测试问题规模下,始终在速度和解决方案质量上优于基线方法。
- TopDown初始化与N10局部搜索结合RMS模型构建,整体性能最佳,相比使用RB的Müller-Merbach基线,性能提升54.1%;在使用局部搜索时,提升达56.1%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。