[论文解读] BigDataBench: A Scalable and Unified Big Data and AI Benchmark Suite
本文提出 BigDataBench 4.0,一个基于八个基本数据模式的可扩展且统一的大数据与人工智能基准测试套件,这些模式代表了跨多样化工作负载的常见计算模式。通过将工作负载建模为这些模式的组合,该基准测试实现了对系统和硬件性能的高效、代表性评估。全面的 CPU 和 GPU 微架构表征表明,内存访问模式——尤其是 ResNet 和 Word2Vec 等模型中的数据移动——由于高停顿和低指令级并行性,显著限制了 GPU 的效率。
Several fundamental changes in technology indicate domain-specific hardware and software co-design is the only path left. In this context, architecture, system, data management, and machine learning communities pay greater attention to innovative big data and AI algorithms, architecture, and systems. Unfortunately, complexity, diversity, frequently-changed workloads, and rapid evolution of big data and AI systems raise great challenges. First, the traditional benchmarking methodology that creates a new benchmark or proxy for every possible workload is not scalable, or even impossible for Big Data and AI benchmarking. Second, it is prohibitively expensive to tailor the architecture to characteristics of one or more application or even a domain of applications. We consider each big data and AI workload as a pipeline of one or more classes of units of computation performed on different initial or intermediate data inputs, each class of which we call a data motif. On the basis of our previous work that identifies eight data motifs taking up most of the run time of a wide variety of big data and AI workloads, we propose a scalable benchmarking methodology that uses the combination of one or more data motifs---to represent diversity of big data and AI workloads. Following this methodology, we present a unified big data and AI benchmark suite---BigDataBench 4.0, publicly available from~\url{http://prof.ict.ac.cn/BigDataBench}. This unified benchmark suite sheds new light on domain-specific hardware and software co-design: tailoring the system and architecture to characteristics of the unified eight data motifs other than one or more application case by case. Also, for the first time, we comprehensively characterize the CPU pipeline efficiency using the benchmarks of seven workload types in BigDataBench 4.0.
研究动机与目标
- 解决由于工作负载多样性及快速演进而带来的大数据与人工智能基准测试在可扩展性和代表性方面的挑战。
- 克服传统基准测试方法的局限性,即每个工作负载都需要定制基准测试,这些方法成本高昂且难以维护。
- 通过将工作负载抽象为一组可重用的计算单元——数据模式——而非单个应用程序,实现领域特定的软硬件协同设计。
- 提供一个全面的开源基准测试套件,支持在多样化的大数据与人工智能工作负载中对微架构、组件和端到端系统进行评估。
- 利用分层自顶向下的方法,在七个工作负载类型中对 CPU 和 GPU 系统的微架构性能进行详细分析。
提出的方法
- 定义八种基本数据模式,如 GEMM、卷积、梯度计算和数据移动,这些模式共同捕捉了真实世界大数据与人工智能工作负载中大部分的运行时间。
- 通过将这些数据模式中的一个或多个组合成代表性工作负载,构建 BigDataBench 4.0 作为统一的基准测试套件,覆盖七类工作负载:在线服务、离线分析、图分析、人工智能、数据仓库、NoSQL 和流处理。
- 集成 13 个真实世界数据集和 6 个可扩展数据集,以确保在不同系统规模下的真实性和可复现性。
- 在 CPU 上应用分层自顶向下的性能分析方法,通过 BigDataBench 4.0 与传统基准测试(如 SPECCPU 和 PARSEC)结合,评估五个层级的流水线效率。
- 使用 IPC(每周期指令数)和 SM(流式多处理器)效率等指标评估 GPU 性能,并通过详细的内核级性能分析,识别内存和计算瓶颈。
- 对 50 个微架构指标使用主成分分析(PCA)和分层聚类方法,评估迭代次数对架构行为的影响,结果表明少量迭代(如 1–10 个周期)已足以实现性能表征。
实验结果
研究问题
- RQ1基于少量计算模式的统一基准测试套件是否能够有效表征现实世界大数据与人工智能工作负载的多样性和复杂性?
- RQ2数据模式在多大程度上可以减少对特定应用基准测试的需求,同时保持代表性与可扩展性?
- RQ3ResNet 和 Word2Vec 等深度学习模型中的内存访问模式如何影响 GPU 性能?其底层的架构瓶颈是什么?
- RQ4在人工智能基准测试中,少量迭代(如 1–10 个周期)是否足以提供可靠的微架构洞察,而不会导致运行时间过长?
- RQ5BigDataBench 4.0 在表征 CPU 流水线效率和 GPU 利用率方面,与传统基准测试相比表现如何?
主要发现
- BigDataBench 4.0 仅使用八个核心数据模式,成功捕捉了七类工作负载中 47 种多样化工作负载的性能特征,实现了可扩展且具有代表性的基准测试。
- 如 ResNet、Inception 和 Word2Vec 等人工智能基准测试的 IPC 和 SM 效率显著低于 AlexNet 和 VGG16 等模型,降幅高达 30–50%,主要由于高内存访问开销和频繁的数据加载/存储操作。
- 人工智能内核的运行时间分解显示,ResNet 和 Inception 的超过 40% 时间消耗在数据移动内核(如 assign_moving_avg)上,而 AlexNet 和 GoogLeNet 等模型则主要消耗在 GEMM 和卷积内核上。
- 使用批量归一化(如 ResNet)的模型比使用局部响应归一化的模型(如 AlexNet)产生更多的数据移动,导致更高的停顿和更低的指令级并行性。
- 自顶向下的分析表明,不同工作负载的 CPU 流水线效率差异显著,部分人工智能和图计算工作负载的利用率低于 50%,主要由于内存停顿和分支预测错误。
- 聚类分析表明,即使在人工智能基准测试中仅进行少量迭代(如 1–10 个周期),其微架构行为也与完整训练运行高度相似,表明短周期迭代足以支持架构评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。