[论文解读] An Analytic Model for Cost-Benefit Analysis of Dataflows in DNN Accelerators
该论文提出了 MAESTRO,一种分析性成本模型,通过建模时空重用和硬件占用率,量化深度神经网络(DNN)加速器数据流的性能与能效。该模型实现了对 4.8 亿种配置的高效设计空间探索,每秒可处理 0.17 百万种设计,识别出 250 万种有效设计,包括帕累托最优的吞吐量与能效优化点。
The data partitioning and scheduling strategies used by DNN accelerators to leverage reuse and perform staging are known as dataflow, and they directly impact the performance and energy efficiency of DNN accelerator designs. An accelerator microarchitecture dictates the dataflow(s) that can be employed to execute a layer or network. Selecting an optimal dataflow for a layer shape can have a large impact on utilization and energy efficiency, but there is a lack of understanding on the choices and consequences of dataflows, and of tools and methodologies to help architects explore the co-optimization design space. In this work, we first introduce a set of data-centric directives to concisely specify the space of DNN dataflows in a compilerfriendly form. We then show how these directives can be analyzed to infer various forms of reuse and to exploit them using hardware capabilities. We codify this analysis into an analytical cost model, MAESTRO (Modeling Accelerator Efficiency via Spatio-Temporal Reuse and Occupancy), that estimates various cost-benefit tradeoffs of a dataflow including execution time and energy efficiency for a DNN model and hardware configuration. We demonstrate the use of MAESTRO to drive a hardware design space exploration (DSE) experiment, which searches across 480M designs to identify 2.5M valid designs at an average rate of 0.17M designs per second, including Pareto-optimal throughput- and energy-optimized design points.
研究动机与目标
- 为解决 DNN 加速器数据流中权衡关系缺乏系统性理解与分析工具的问题。
- 提供一种面向编译器的正式形式化方法,通过数据为中心的指令来指定数据流策略。
- 通过建模重用模式与硬件利用率,估算执行时间和能效。
- 实现 DNN 加速器的可扩展硬件设计空间探索(DSE)。
- 识别在吞吐量与能效之间实现平衡的帕累托最优设计。
提出的方法
- 引入一组以数据为中心的指令,以简洁且面向编译器的方式指定 DNN 数据流空间。
- 分析这些指令,推断 DNN 工作负载中的空间与时间重用模式。
- 构建分析性成本模型 MAESTRO,基于重用与硬件占用率估算执行时间与能效。
- 利用该模型在 4.8 亿种配置中实现自动化、高吞吐量的设计空间探索(DSE)。
- 借助硬件能力建模,将数据流选择映射到性能与能效指标。
- 应用该模型识别出在吞吐量与能效方面均有效的帕累托最优设计。
实验结果
研究问题
- RQ1如何以形式化且紧凑的方式指定 DNN 加速器中数据流配置,以实现系统性分析?
- RQ2不同数据流选择对重用利用、执行时间与能效的影响是什么?
- RQ3分析性模型能否在庞大设计空间中准确预测性能与能效的权衡?
- RQ4该模型在多大程度上能高效支持 DNN 加速器硬件设计空间的探索?
- RQ5DNN 加速器数据流中吞吐量与能效之间的帕累托最优权衡是什么?
主要发现
- MAESTRO 实现了每秒平均 0.17 百万种设计的高速设计空间探索。
- 该方法成功探索了 4.8 亿种潜在的 DNN 加速器配置,识别出 250 万种有效设计。
- 该模型识别出在吞吐量与能效之间实现平衡的帕累托最优设计点。
- 使用数据为中心的指令可实现对数据流策略的精确且面向编译器的指定。
- 分析性模型准确捕捉了数据流选择的成本-效益权衡,包括重用利用与硬件占用率。
- 该框架在真实世界 DNN 加速器设计探索中展现出可扩展性与实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。