QUICK REVIEW

[論文レビュー] Accelerating Time Series Analysis via Processing using Non-Volatile Memories

Ivan Fernandez, Christina Giannoula|arXiv (Cornell University)|Nov 8, 2022

Time Series Analysis and Forecasting参考文献 189被引用数 3

ひとこと要約

本論文は、時間系列解析のためのMRAMベースのPUM（処理をメモリで行う）アクセラレータであるMATSAを提案する。MATSAは、MRAMクロスバー内で直接計算を実行することで、外部メモリへのデータ移動を排除し、部分列動的時系列適合（sDTW）を高速化する。MATSAは、CPU、GPU、処理近接メモリ（PNM）プラットフォームと比較して、それぞれ7.35×/6.15×/6.31×の高い性能と11.29×/4.21×/2.65×の優れたエネルギー効率を達成する。

ABSTRACT

Time Series Analysis (TSA) is a critical workload to extract valuable information from collections of sequential data, e.g., detecting anomalies in electrocardiograms. Subsequence Dynamic Time Warping (sDTW) is the state-of-the-art algorithm for high-accuracy TSA. We find that the performance and energy efficiency of sDTW on conventional CPU and GPU platforms are heavily burdened by the latency and energy overheads of data movement between the compute and the memory units. sDTW exhibits low arithmetic intensity and low data reuse on conventional platforms, stemming from poor amortization of the data movement overheads. To improve the performance and energy efficiency of the sDTW algorithm, we propose MATSA, the first Magnetoresistive RAM (MRAM)-based Accelerator for TSA. MATSA leverages Processing-Using-Memory (PUM) based on MRAM crossbars to minimize data movement overheads and exploit parallelism in sDTW. MATSA improves performance by 7.35x/6.15x/6.31x and energy efficiency by 11.29x/4.21x/2.65x over server-class CPU, GPU, and Processing-Near-Memory platforms, respectively.

研究の動機と目的

従来のCPUおよびGPUプラットフォームにおけるsDTWの性能およびエネルギー非効率性を、高いデータ移動オーバーヘッドが原因として解消する。
遅いメモリ内演算に起因する計算性能に制限を受ける処理近接メモリ（PNM）プラットフォームの限界を克服する。
低遅延、低消費電力、高耐久性を特徴とするMRAMを活用した専用アクセラレータを設計し、sDTWのためのメモリ内計算を可能にする。
新規のデータマッピングおよびパイプライン化された反対角実行を用いて、MRAMクロスバー内で直接sDTW計算を実行することで、データ移動を最小限に抑え、並列処理を最大化する。
ECGや地震学などの実世界の時間系列データセットを含む多様なワークロードにおいて、高い性能およびエネルギー効率を実現する。

提案手法

MRAMクロスバーを用いたPUMベースのアクセラレータとしてMATSAを実装し、外部メモリへのデータ移動を排除することで、計算を直接メモリ内で実行する。
sDTWカーネルを、MRAMクロスバーの各列で並列に実行可能なビット単位の論理演算に分解する。
2次元動的計画法行列を4つのベクトルで表現することで、sDTWのメモリ使用量を二次関数的から線形に削減する、新規のデータマッピング戦略を導入する。
動的計画法行列内のセル間依存関係を解消し、パイプライン実行を可能にするために、反対角順序での計算を適用する。
各sDTWクエリをクロスバーの列にマッピングすることで、MRAMクロスバーの高い並列性（最大数千の同時処理）を活用する。
実際のMRAM遅延および消費電力モデル（例：5nsのリード遅延、50nJのリード消費電力）を備えた自社開発シミュレータを用い、MATSAの性能およびエネルギー効率を評価する。

実験結果

リサーチクエスチョン

RQ1MRAMを用いた処理をメモリで行う（PUM）技術は、従来のプラットフォームでメモリバウンドとなるsDTWのデータ移動ボトルネックを解消できるか？
RQ2MATSAのメモリ内計算および新規のデータマッピング戦略は、2次元動的計画法行列のメモリ使用量を低減し、オンザフライでの計算を可能にするか？
RQ3MATSAは、CPU、GPU、FPGA、PNMプラットフォームと比較して、sDTWワークロードにおける性能およびエネルギー効率でどの程度優れているか？
RQ4MATSAの反対角パイプライン実行戦略は、sDTW計算におけるデータ依存関係をどのように克服し、並列性を最大化しているか？
RQ5多様な実世界の時間系列データセットにおいて、MATSAの性能とエネルギーのトレードオフはどのようなものか？また、入力サイズの変化に伴うスケーリング特性は？

主な発見

MATSAは、サーバークラスCPU（cpuxeon）と比較して、sDTWワークロードで7.35倍の高い性能と11.29倍優れたエネルギー効率を達成する。
MATSAはGPUベースラインと比較して6.15倍の高い性能と4.21倍優れたエネルギー効率を示し、優れたスケーラビリティと効率性を実証する。
MATSAはPNMプラットフォームUPMEMを6.31倍の性能および2.65倍のエネルギー効率で上回り、その計算性能の制限を克服する。
性能およびエネルギーの利点は、外部メモリへのデータ移動を排除し、MRAMクロスバーによる大規模並列処理を活用することに起因する。
MATSA-HPCは、cpuxeonと比較して11.29倍低いエネルギー消費量、GPUと比較して4.21倍低いエネルギー消費量を実現し、エネルギー効率の向上は主にメモリ内計算に起因する。
MATSAは任意サイズのデータセットをサポートし、ヒューマン、ECG、シズモロジーを含む6つの実世界データセットで高い効率を維持し、広範な適用可能性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。