[论文解读] Understanding Reuse, Performance, and Hardware Cost of DNN Dataflows: A Data-Centric Approach
本文提出 MAESTRO,一种以数据为中心的分析性成本模型,用于量化深度神经网络(DNN)数据流在重用、占用率和性能之间的权衡,以指导硬件设计空间探索。通过将数据流指令编码为编译器友好的格式,MAESTRO 实现了对 4.8 亿个设计的高效探索,每秒可处理 0.17 百万个设计,识别出 250 万个有效配置,包括帕累托最优的吞吐量与能效平衡点。
The data partitioning and scheduling strategies used by DNN accelerators to leverage reuse and perform staging are known as dataflow, and they directly impact the performance and energy efficiency of DNN accelerator designs. An accelerator microarchitecture dictates the dataflow(s) that can be employed to execute a layer or network. Selecting an optimal dataflow for a layer shape can have a large impact on utilization and energy efficiency, but there is a lack of understanding on the choices and consequences of dataflows, and of tools and methodologies to help architects explore the co-optimization design space. In this work, we first introduce a set of data-centric directives to concisely specify the space of DNN dataflows in a compilerfriendly form. We then show how these directives can be analyzed to infer various forms of reuse and to exploit them using hardware capabilities. We codify this analysis into an analytical cost model, MAESTRO (Modeling Accelerator Efficiency via Spatio-Temporal Reuse and Occupancy), that estimates various cost-benefit tradeoffs of a dataflow including execution time and energy efficiency for a DNN model and hardware configuration. We demonstrate the use of MAESTRO to drive a hardware design space exploration (DSE) experiment, which searches across 480M designs to identify 2.5M valid designs at an average rate of 0.17M designs per second, including Pareto-optimal throughput- and energy-optimized design points.
研究动机与目标
- 解决 DNN 加速器设计中数据流选择探索缺乏系统性理解与工具的问题。
- 定义一种编译器友好的形式化方法,通过以数据为中心的指令指定 DNN 数据流。
- 基于时空重用与硬件占用率,建立数据流性能与能效权衡的建模方法。
- 实现对数百万种配置的可扩展硬件设计空间探索(DSE)。
- 识别在吞吐量与能效之间实现平衡的帕累托最优设计。
提出的方法
- 定义一组以数据为中心的指令,以简洁且编译器友好的格式表示 DNN 数据流策略。
- 分析这些指令,推断权重、激活值和输出在空间与时间上的重用模式。
- 构建分析性成本模型 MAESTRO,基于重用与硬件资源占用率估算执行时间和能耗。
- 利用基于占用率的性能与能效指标,形式化成本-收益权衡。
- 将 MAESTRO 集成到硬件 DSE 框架中,实现对 4.8 亿个设计点的高效探索。
- 利用该模型识别在吞吐量与能效维度上有效的设计及帕累托最优配置。
实验结果
研究问题
- RQ1如何通过以数据为中心的指令,形式化且紧凑地指定 DNN 数据流?
- RQ2DNN 加速器中不同数据流选择引入的关键性能与能效权衡是什么?
- RQ3在不进行完整仿真的情况下,对重用与占用率的分析建模在多大程度上能准确预测数据流效率?
- RQ4数据流模型在多大程度上能高效支持 DNN 加速器配置的大规模设计空间探索?
- RQ5DNN 加速器设计中,吞吐量与能效效率之间的帕累托最优权衡是什么?
主要发现
- MAESTRO 实现了对 4.8 亿个 DNN 加速器设计的高效探索,识别出 250 万个有效配置。
- 该框架实现了平均每秒 0.17 百万个设计的探索速度,支持可扩展的 DSE。
- 该模型成功识别出在高吞吐量与低能耗之间实现平衡的帕累托最优设计。
- 以数据为中心的指令形式化方法可实现对数据流重用模式的精确指定与分析。
- 通过 MAESTRO 的分析建模,能够高精度捕捉关键性能与能效权衡,显著减少对昂贵仿真工具的依赖。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。