QUICK REVIEW

[论文解读] TensorDIMM: A Practical Near-Memory Processing Architecture for Embeddings and Tensor Operations in Deep Learning

Youngeun Kwon, Y. Lee|arXiv (Cornell University)|Aug 8, 2019

Parallel Computing and Optimization Techniques参考文献 48被引用 24

一句话总结

TensorDIMM 提出了一种近内存处理架构，通过在通用 DIMM 中集成专用处理核心，加速深度学习工作负载中的嵌入查找和张量操作。通过利用以 GPU 为中心的互连结构和分离式内存池，其在基于 DNN 的推荐系统中相比纯 CPU 和 CPU-GPU 混合方案实现了 6.2–17.6× 的性能提升。

ABSTRACT

Recent studies from several hyperscalars pinpoint to embedding layers as the most memory-intensive deep learning (DL) algorithm being deployed in today's datacenters. This paper addresses the memory capacity and bandwidth challenges of embedding layers and the associated tensor operations. We present our vertically integrated hardware/software co-design, which includes a custom DIMM module enhanced with near-data processing cores tailored for DL tensor operations. These custom DIMMs are populated inside a GPU-centric system interconnect as a remote memory pool, allowing GPUs to utilize for scalable memory bandwidth and capacity expansion. A prototype implementation of our proposal on real DL systems shows an average 6.2-17.6x performance improvement on state-of-the-art recommender systems.

研究动机与目标

解决现代数据中心中最耗内存的嵌入层所面临的内存容量和带宽瓶颈。
克服纯 CPU 和 CPU-GPU 混合执行模型在大规模嵌入工作负载中所受的性能限制。
设计一种实用的软硬件协同系统，利用通用 DRAM 和近内存处理技术实现可扩展的内存带宽与容量扩展。
证明近内存处理能够有效利用 DRAM 带宽，应对嵌入操作中典型的不规则、稀疏内存访问模式。

提出的方法

提出 TensorDIMM，一种专为嵌入 gather 和 reduction 等张量操作优化的近内存处理（NMP）核心的定制 DIMM。
在以 GPU 为中心的系统互连中部署 TensorDIMM，作为远程的、分离式内存池，以扩展内存容量和带宽。
设计专用的张量指令集架构（ISA）和运行时系统，以管理数据移动和计算卸载至 NMP 核心。
使用经过最小修改的通用缓冲型 DRAM 模块，实现无需更改现有内存标准的实用化部署。
在 FPGA 原型上实现并评估该设计，采用真实世界 DNN 工作负载，尤其聚焦于推荐系统。
通过在内存中直接处理嵌入数据，优化数据访问模式，减少芯片外数据移动和延迟。

实验结果

研究问题

RQ1如何有效利用近内存处理来加速深度学习中内存密集型的嵌入操作？
RQ2哪些架构和系统级设计选择能够实现大规模嵌入表的可扩展内存带宽与容量？
RQ3使用通用 DIMM 的软硬件协同设计能否在传统纯 CPU 或 CPU-GPU 混合执行模式上实现显著的性能提升？
RQ4在真实工作负载下，近内存处理的性能与传统基于 CPU 的嵌入查找相比如何？
RQ5在标准 DIMM 尺寸中集成 NMP 核心的实际可行性与资源开销如何？

主要发现

TensorDIMM 在最先进的基于 DNN 的推荐系统中，相比纯 CPU 实现，平均实现了 6.2–15.0× 的性能提升。
与混合 CPU-GPU 工作负载相比，该架构实现了 8.9–17.6× 的加速，显著降低了由内存瓶颈引起的延迟。
TensorDIMM 中的 NMP 核心实现了接近最大值的 DRAM 带宽利用率，克服了基于 CPU 的嵌入查找中仅 <5% 的有效带宽问题。
FPGA 原型表明资源开销极低，单个 NMP 核心仅消耗 Xilinx Virtex UltraScale+ VCU1525 板卡上 0.3% 的 LUT 和 0.02% 的 DSP。
系统级分离式内存池支持可扩展的内存容量和带宽，可支持超过数百 GB 的嵌入表。
专用张量 ISA 和运行时系统有效管理数据移动与计算卸载，实现了与现有 GPU 加速推理流水线的无缝集成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。