QUICK REVIEW
[论文解读] Deep Learning Inference in Facebook Data Centers: Characterization, Performance Optimizations and Hardware Implications
Jongsoo Park, Maxim Naumov|arXiv (Cornell University)|Nov 24, 2018
Parallel Computing and Optimization Techniques参考文献 45被引用 82
一句话总结
本论文描述了 Facebook 的 DL 推理工作负载,分析计算/内存需求,并提出面向 CPU 的优化以及未来推理加速器的硬件考虑。
ABSTRACT
The application of deep learning techniques resulted in remarkable improvement of machine learning models. In this paper provides detailed characterizations of deep learning models used in many Facebook social network services. We present computational characteristics of our models, describe high performance optimizations targeting existing systems, point out their limitations and make suggestions for the future general-purpose/accelerated inference hardware. Also, we highlight the need for better co-design of algorithms, numerics and computing platforms to address the challenges of workloads often run in data centers.
研究动机与目标
- 表征 Facebook 服务中使用的 DL 推理工作负载及其演变。
- 识别驱动硬件设计的计算和内存访问模式。
- 提出基于 CPU 的推理的性能优化和低精度技术。
- 强调未来 DL 推理硬件的硬件影响及需求。
提出的方法
- 将推理工作负载分类为排序/推荐、计算机视觉(CV)和语言任务。
- 分析代表性模型的算术强度、带宽以及片上/片外内存使用情况。
- 使用观测框架和 Roofline 模型对基于 CPU 的推理的算子工作负载和瓶颈进行分析。
- 开发低精度 DL 推理技术(fp16、int8)以及异常值感知量化,以在保持准确性的同时提高吞吐量。
- 提出软件与接口方面的考虑,以更好地支持 DL 工作负载(将卷积作为一等公民、非方形/内存绑定形状)。
- 提供基于基准的见解以及模型/内核特征,以指导软硬件协同设计。
实验结果
研究问题
- RQ1Facebook 数据中心中有哪些代表性 DL 推理工作负载?它们是如何演变的?
- RQ2这些工作负载的计算和内存特征(算术强度、带宽需求、片上与片外内存使用)是什么?
- RQ3在功耗/吞吐约束下,哪些优化(精度、内核实现、软件设计)可以提升基于 CPU 的推理性能?
- RQ4未来 DL 推理硬件需要哪些硬件特性和协同设计策略来有效处理这些工作负载?
主要发现
- 嵌入查找主导内存带宽并需要较大的内存容量,嵌入通常超过数十GB。
- 在 CPU 上,前馈层(FC)和嵌入查找是主要的时间瓶颈,性能取决于小批量大小和分组卷积的内存带宽。
- 低精度方法(fp16、32 位累加的 int8、异常值感知量化)在选定的层中可带来约 2–4 倍的加速,同时将精度保持在很小的误差范围内。
- Roofline 分析显示性能提升取决于片上内存容量和带宽;更大的片上内存可以显著提升对大激活和嵌入的吞吐量。
- 如 FBGEMM(fp16)和 i8-acc32 等专业内核在代表性模型中显著优于 fp32 GEMM,特别是对 FC 和 Faster-RCNN-Shuffle。
- 本文主张将卷积作为一等公民的操作,并采用非标准接口以适应高瘦矩阵和分组/深度卷积等。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。