QUICK REVIEW

[论文解读] Accelerating Time Series Analysis via Processing using Non-Volatile Memories

Ivan Fernandez, Christina Giannoula|arXiv (Cornell University)|Nov 8, 2022

Time Series Analysis and Forecasting参考文献 189被引用 3

一句话总结

该论文提出MATSA，这是首个基于MRAM的用于时间序列分析的Processing-Using-Memory（PUM）加速器，通过在MRAM交叉阵列中直接执行计算来消除片外数据移动，从而加速子序列动态时间规整（sDTW）。MATSA在性能上分别比CPU、GPU和近内存计算平台高出7.35×/6.15×/6.31×，在能效方面分别高出11.29×/4.21×/2.65×。

ABSTRACT

Time Series Analysis (TSA) is a critical workload to extract valuable information from collections of sequential data, e.g., detecting anomalies in electrocardiograms. Subsequence Dynamic Time Warping (sDTW) is the state-of-the-art algorithm for high-accuracy TSA. We find that the performance and energy efficiency of sDTW on conventional CPU and GPU platforms are heavily burdened by the latency and energy overheads of data movement between the compute and the memory units. sDTW exhibits low arithmetic intensity and low data reuse on conventional platforms, stemming from poor amortization of the data movement overheads. To improve the performance and energy efficiency of the sDTW algorithm, we propose MATSA, the first Magnetoresistive RAM (MRAM)-based Accelerator for TSA. MATSA leverages Processing-Using-Memory (PUM) based on MRAM crossbars to minimize data movement overheads and exploit parallelism in sDTW. MATSA improves performance by 7.35x/6.15x/6.31x and energy efficiency by 11.29x/4.21x/2.65x over server-class CPU, GPU, and Processing-Near-Memory platforms, respectively.

研究动机与目标

解决传统CPU和GPU平台在sDTW上因高数据移动开销导致的性能和能效低下问题。
克服近内存计算（PNM）平台的局限性，后者因内存内操作速度慢而仍受计算能力制约。
设计专用加速器，利用MRAM的低延迟、低功耗和高耐久性，实现sDTW的内存内计算。
通过新颖的数据映射和流水线反对角执行策略，在MRAM交叉阵列中直接执行sDTW计算，最大限度减少数据移动并提升并行性。
在包括ECG和地震学等真实世界时间序列数据集在内的多样化工作负载中，实现高性能和高能效。

提出的方法

将MATSA实现为基于PUM的加速器，利用磁阻式RAM（MRAM）交叉阵列在内存中直接执行计算，消除片外数据移动。
将sDTW内核分解为可并行执行于MRAM交叉阵列列的按位布尔运算。
提出一种新颖的数据映射策略，通过使用四个向量表示二维动态规划矩阵，将sDTW的内存占用从二次方降低为线性。
采用反对角计算顺序以解决动态规划矩阵中的单元间依赖关系，实现流水线执行。
通过将每个sDTW查询映射到交叉阵列的一列，利用MRAM交叉阵列高达数千个并发操作的高并行性。
使用自研仿真器，结合真实的MRAM延迟和功耗模型（如5ns读取延迟、50nJ读取功耗）来评估MATSA的性能和能效。

实验结果

研究问题

RQ1基于MRAM的Processing-Using-Memory（PUM）能否消除传统平台中sDTW这一内存密集型工作负载的数据移动瓶颈？
RQ2MATSA的内存内计算与新颖的数据映射如何减少内存占用，并实现二维动态规划矩阵的实时计算？
RQ3在sDTW工作负载中，MATSA在性能和能效方面相较于CPU、GPU、FPGA和PNM平台的提升程度如何？
RQ4MATSA的反对角流水线执行策略如何克服sDTW计算中的数据依赖性，同时最大化并行性？
RQ5MATSA在多样化的真实世界时间序列数据集中的性能与能效权衡如何？其在不同输入规模下的可扩展性如何？

主要发现

MATSA在sDTW工作负载中，性能比服务器级CPU（cpuxeon）高出7.35×，能效比高出11.29×。
MATSA相比GPU基线，性能高出6.15×，能效比高出4.21×，展现出更优的可扩展性和效率。
MATSA在性能上比PNM平台UPMEM高出6.31×，在能效比上高出2.65×，成功克服了其计算受限的局限性。
性能和能效优势源于消除片外数据移动，并通过MRAM交叉阵列实现大规模并行性。
MATSA-HPC的能耗比cpuxeon低11.29倍，比GPU低4.21倍，能效提升主要得益于内存内计算。
MATSA支持任意大小的数据集，并在六种真实世界数据集（包括Human、ECG和Seismology）中保持高效率，展现出广泛适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。