QUICK REVIEW

[论文解读] Dynamic Space-Time Scheduling for GPU Inference

Paras Jain, Xiangxi Mo|arXiv (Cornell University)|Dec 31, 2018

Advanced Neural Network Applications参考文献 14被引用 27

一句话总结

本文提出了一种动态时空调度器，通过融合多个DNN模型的推理内核，提升多租户在线推理中的GPU利用率。通过将不同模型的内核批量合并为单个超内核调用，其浮点运算吞吐量相比仅时间复用最高提升7.73倍，相比仅空间复用提升3.23倍，同时确保了延迟可预测性和性能隔离。

ABSTRACT

Serving deep neural networks in latency critical interactive settings often requires GPU acceleration. However, the small batch sizes typical in online inference results in poor GPU utilization, a potential performance gap which GPU resource sharing can address. In this paper, we explore several techniques to leverage both temporal and spatial multiplexing to improve GPU utilization for deep learning inference workloads. We evaluate the performance trade-offs of each approach with respect to resource-efficiency, latency predictability, and isolation when compared with conventional batched inference. Our experimental analysis suggests up to a 5x potential for improved utilization through the exploration of more advanced spatial and temporal multiplexing strategies. Our preliminary prototype of a dynamic space-time scheduler demonstrates a 3.23x floating-point throughput increase over space-only multiplexing and a 7.73x increase over time-only multiplexing for convolutions, while also providing better isolation and latency predictability.

研究动机与目标

解决由于小批量大小和可变工作负载导致的在线DNN推理中GPU利用率低下的关键问题。
克服现有仅空间或仅时间GPU复用方案的局限性，这些方案在资源效率、可预测性或隔离性方面存在妥协。
设计一种调度器，实现GPU加速推理工作负载的高效、可预测且隔离的多租户支持。
在真实世界的多租户GPU推理环境中，评估资源效率、延迟可预测性和隔离性之间的权衡。

提出的方法

实现一种基于软件的动态调度器，将来自不同DNN模型的多个内核调用批量合并为单次超内核启动。
通过跨模型批量处理，利用MAGMA BLAS库将具有不同输入大小的多个模型中的SGEMM操作融合为单个批量内核。
对固定大小问题使用NVIDIA的cuBLAS批量GEMM操作，并扩展至异构模型的可变大小批量处理。
基于每个模型的服务水平目标（SLO）调度工作负载，实现动态批量决策，以平衡延迟与吞吐量。
在不相交的DNN计算图之间应用内核融合，以在每个GPU时间片内最大化GPU资源利用率。
在受控条件下，使用代表性DNN层（如ResNet-18的conv2_2）和矩阵乘法类型（RNN、方阵、卷积层）测量性能。

实验结果

研究问题

RQ1动态时空复用是否能在在线DNN推理中实现超越仅空间或仅时间调度的GPU利用率提升？
RQ2跨模型内核批量处理对多租户GPU推理中的延迟可预测性和性能隔离有何影响？
RQ3与传统批处理推理及现有复用策略相比，动态时空调度器的吞吐量提升幅度如何？
RQ4在现代GPU上，跨具有不同输入大小和权重的模型进行内核融合，能在多大程度上提升资源效率？
RQ5在典型交互式推理系统中常见的可变且随机的查询工作负载下，所提出的调度器是否能维持可预测的性能？

主要发现

对于ResNet-18卷积层，该动态时空调度器相比仅空间复用的吞吐量提升3.23倍，相比仅时间复用提升7.73倍。
在2至120个并发模型的矩阵乘法工作负载中，该调度器平均相比次优方案（仅空间复用）实现4.93倍的吞吐量提升。
通过超内核实现的跨模型内核批量处理，实现了更优的空间与时间复用，减少了GPU空闲资源，提升了利用率。
与传统方法相比，该调度器在延迟可预测性和性能隔离方面表现更优，后者存在高波动性和干扰问题。
吞吐量扩展性显著提升：例如，在RNN矩阵-向量运算中实现2.48倍加速，在ResNet-18 conv2_2层中实现3.23倍加速，相比仅空间复用。
该方法揭示了传统批处理推理与先进复用技术之间的显著性能差距，表明推理工作负载中GPU利用率尚有巨大潜力可挖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。