QUICK REVIEW

[論文レビュー] Triangle Counting Accelerations: From Algorithm to In-Memory Computing Architecture

Xueyan Wang, Jianlei Yang|arXiv (Cornell University)|Dec 1, 2021

Advanced Memory and Neural Computing参考文献 28被引用数 23

ひとこと要約

本稿では、論理演算（ANDおよびBitCount）を活用したアルゴリズム・アーキテクチャ共同最適化により、従来のフォン・ノイマン型システムの帯域幅ボトルネックを克服する、初めてのメモリ内三角形カウントアクセラレータであるTCIMを提案する。ビット単位の論理演算にのみ依存する三角形カウントの再定式化、スパースグラフのカスタムデータスライシングによる圧縮、STT-MRAMを用いたPIMアーキテクチャへの直接的な計算マッピングにより、最先端のGPUアクセラレータ比でエネルギー効率が34倍向上し、12.2倍の高速化を達成。知的なデータ再利用およびリプレースメント戦略により、メモリ書き込み操作を60.5%削減した。

ABSTRACT

Triangles are the basic substructure of networks and triangle counting (TC) has been a fundamental graph computing problem in numerous fields such as social network analysis. Nevertheless, like other graph computing problems, due to the high memory-computation ratio and random memory access pattern, TC involves a large amount of data transfers thus suffers from the bandwidth bottleneck in the traditional Von-Neumann architecture. To overcome this challenge, in this paper, we propose to accelerate TC with the emerging processing-in-memory (PIM) architecture through an algorithm-architecture co-optimization manner. To enable the efficient in-memory implementations, we come up to reformulate TC with bitwise logic operations (such as AND), and develop customized graph compression and mapping techniques for efficient data flow management. With the emerging computational Spin-Transfer Torque Magnetic RAM (STT-MRAM) array, which is one of the most promising PIM enabling techniques, the device-to-architecture co-simulation results demonstrate that the proposed TC in-memory accelerator outperforms the state-of-the-art GPU and FPGA accelerations by 12.2x and 31.8x, respectively, and achieves a 34x energy efficiency improvement over the FPGA accelerator.

研究の動機と目的

フォン・ノイマン型アーキテクチャにおける高いランダムメモリアクセスと低い計算対メモリ比に起因する三角形カウント（TC）におけるメモリ帯域幅ボトルネックを解消すること。
メモリ内コンピューティングでネイティブにサポートされるANDおよびBitCountといったビット単位の論理演算のみを用いて、TCを再定式化し、効率的なメモリ内実行を可能にすること。
スパarsityに配慮したSTT-MRAMを用いた処理インメモリ（PIM）アーキテクチャを設計し、効率的なデータ圧縮、スライシング、およびイン・サイド計算を可能にすること。
データ再利用および優先度ベースのリプレースメント戦略により、メモリ書き込み操作を最小限に抑えることで、エネルギーと遅延を低減すること。
デバイスからアーキテクチャへの共同シミュレーションを用いて、CPU、GPU、FPGAアクセラレータ比で顕著な性能およびエネルギー効率の向上を実証すること。

提案手法

三角形カウントをビット単位の論理演算のみで再定式化：三角形の数は隣接ビットマップ間のAND演算とその後続のビットカウント（BitCount）で計算される。
固定サイズのスライス（64ビット）に隣接ビットマップを分割するカスタムデータスライシング技術を提案し、スパarsityを活用して冗長計算を低減する。
非ゼロスライスのみを格納するスパarsityに配慮したグラフ圧縮法を設計し、メモリフットプリントと計算量を最大99.99%まで削減する。
頻繁にアクセスされるスライスをオンチップメモリにキャッシュするデータ再利用戦略を実装し、平均で60.5%の書き込み操作削減を達成する。
LRU比で最大30.1%のデータリプレースを削減する優先度ベースのデータリプレースポリシーを導入し、大規模グラフ処理における効率を向上させる。
SPICEシミュレーションから得たMTJパラメータをNVSimと動作レベルシミュレータに統合した、デバイスからアーキテクチャへの共同シミュレーションフレームワークを構築し、エネルギーと遅延を推定する。

実験結果

リサーチクエスチョン

RQ1三角形カウントをANDおよびBitCountといったビット単位の論理演算のみで再定式化できるか。これにより、効率的なメモリ内計算が可能になるか。
RQ2スパースグラフデータを効果的に圧縮し、メモリ内処理ユニットにマッピングすることで、データ移動と計算を最小限に抑える方法は何か。
RQ3メモリ内TCアクセラレータにおいて、メモリ書き込み操作を低減するために最も効果的なデータ管理戦略（再利用およびリプレースメント）は何か。
RQ4STT-MRAMを用いたPIMアーキテクチャは、従来のGPUおよびFPGAアクセラレータに比べ、三角形カウント処理において性能およびエネルギー効率でどの程度優れているか。
RQ5アルゴリズムレベルの最適化とPIMアーキテクチャの統合は、全体のシステム効率およびスケーラビリティにどのように影響を与えるか。

主な発見

提案されたTCIMアクセラレータは、最先端のGPUアクセラレータ比で12.2倍の高速化、FPGAアクセラレータ比で31.8倍の高速化を、実世界のグラフで達成した。
単一コアCPUと16 MBのSTT-MRAMアレイを搭載したシステムは、データスライシングと再利用のおかげでCPUベースライン比で53.7倍の高速化を達成し、PIMを活用することでさらに25.5倍の加速が得られ、合計でCPU比1370倍の高速化を達成した。
TCIMのエネルギー効率は、エネルギー効率に優れたFPGA実装比で34倍優れており、主にSTT-MRAMの非揮発性とイン・サイド計算の恩恵によるものである。
優先度ベースのデータリプレースポリシーは、LRU比で最大30.1%のデータリプレース削減を実現し、メモリアクセス効率を顕著に向上させた。
データスライシングおよび圧縮戦略により、有効スライス数は平均で99.99%削減された。特に5つの最大サイズのグラフ（例：com-LiveJournal）では、スパarsityが99.999%に達し、圧縮率は0.01%にまで低下した。
デバイスからアーキテクチャへの共同シミュレーションフレームワークは、システムの妥当性を成功裏に検証した。アルゴリズム・アーキテクチャ共同最適化により、性能およびエネルギー効率が桁違いに向上することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。