[论文解读] Characterizing the Performance of Emerging Deep Learning, Graph, and High Performance Computing Workloads Under Interference
该论文在625对组合的25个现代工作负载(图分析、深度学习、HPC)上经验性分析干扰,识别和谐与受害者-加害者模式,并追踪干扰源头归因到硬件与软件因素。
Throughput-oriented computing via co-running multiple applications in the same machine has been widely adopted to achieve high hardware utilization and energy saving on modern supercomputers and data centers. However, efficiently co-running applications raises new design challenges, mainly because applications with diverse requirements can stress out shared hardware resources (IO, Network and Cache) at various levels. The disparities in resource usage can result in interference, which in turn can lead to unpredictable co-running behaviors. To better understand application interference, prior work provided detailed execution characterization. However, these characterization approaches either emphasize on traditional benchmarks or fall into a single application domain. To address this issue, we study 25 up-to-date applications and benchmarks from various application domains and form 625 consolidation pairs to thoroughly analyze the execution interference caused by application co-running. Moreover, we leverage mini-benchmarks and real applications to pinpoint the provenance of co-running interference in both hardware and software aspects.
研究动机与目标
- 了解多应用共跑如何对共享硬件资源(缓存、内存、I/O、网络)造成压力。
- 表征来自图分析、深度学习、SPEC CPU2017、PARSEC及HPC领域的25个多样、前沿工作负载的干扰。
- 量化625对工作负载配对的运行时间和带宽影响。
- 利用小型基准和分析工具追踪干扰源头,以区分硬件与软件贡献。
提出的方法
- 从图分析、深度学习、SPEC CPU2017、PARSEC和HPC领域选择25个最新应用/基准。
- 形成625组整合任务对,并对每对进行三次评测以获得稳健的干扰测量。
- 表征单独运行的工作负载属性(可扩展性、预取敏感性、内存带宽),并测量共同时的运行时间和带宽。
- 使用小型基准(Bandit、Stream)和分析工具(Intel PCM、VTune)来精确定位干扰的硬件/软件来源。
- 定义交互类别(Harmony、Victim-Offender、Both-Victim)来描述共跑关系。
- 分析高度受影响对的干扰来源,以区分硬件与软件贡献。
实验结果
研究问题
- RQ1来自图分析、深度学习和HPC领域的共运行工作负载如何在共享硬件资源上相互干扰?
- RQ2哪些工作负载特征(可扩展性、内存带宽、预取器敏感性)能预测更高的干扰?
- RQ3干扰的根本原因是什么(硬件竞争 vs. 软件模式),如何通过小型基准和分析工具识别?
- RQ4在625对中出现了哪些交互模式(Harmony、Victim-Offender、Both-Victim),哪些对最具破坏性?
主要发现
- 图分析工作负载易受缓存和内存争用影响,可能对内存密集型的共运行者产生较大影响。
- 某些对显示出Harmony,即两者在前台和后台角色下都以温和的放慢(<1.5x)运行。
- Victim-Offender 的示例包括 G-CC 与 CIFAR(前者 G-CC 运行变慢约54.7%,CIFAR 变慢约25%),以及 G-CC 与 fotonik3d(G-CC 慢约198%,CIFAR 慢约46%)。
- 若干 Both-Victim 情况(如 CIFAR 与 fotonik3d)显示出互相下降(CIFAR +52%,fotonik3d +54%)。
- 小型基准表明,内存带宽密集且具有规律模式的工作负载(如 Stream)通过 LLC 与内存争用,在图和DL工作负载中强烈驱动干扰。
- 分析显示在有问题的对中 CPI、L2_PCP、LLC MPKI 与 LL 水平偏高,指示共享资源瓶颈是关键的干扰驱动力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。