QUICK REVIEW

[论文解读] Triangle Counting Accelerations: From Algorithm to In-Memory Computing Architecture

Xueyan Wang, Jianlei Yang|arXiv (Cornell University)|Dec 1, 2021

Advanced Memory and Neural Computing参考文献 28被引用 23

一句话总结

该论文提出TCIM，首个利用位运算（按位与AND和位计数BitCount）实现算法-架构协同设计的内存内三角计数加速器，以克服传统冯·诺依曼系统中的带宽瓶颈。通过仅使用位逻辑重述三角计数，利用自定义数据切片压缩稀疏图，并将计算直接映射到基于STT-MRAM的PIM架构，该方法在能效方面相比最先进的GPU加速器提升34倍，速度提升12.2倍，同时通过智能数据重用和替换策略将内存写操作减少60.5%。

ABSTRACT

Triangles are the basic substructure of networks and triangle counting (TC) has been a fundamental graph computing problem in numerous fields such as social network analysis. Nevertheless, like other graph computing problems, due to the high memory-computation ratio and random memory access pattern, TC involves a large amount of data transfers thus suffers from the bandwidth bottleneck in the traditional Von-Neumann architecture. To overcome this challenge, in this paper, we propose to accelerate TC with the emerging processing-in-memory (PIM) architecture through an algorithm-architecture co-optimization manner. To enable the efficient in-memory implementations, we come up to reformulate TC with bitwise logic operations (such as AND), and develop customized graph compression and mapping techniques for efficient data flow management. With the emerging computational Spin-Transfer Torque Magnetic RAM (STT-MRAM) array, which is one of the most promising PIM enabling techniques, the device-to-architecture co-simulation results demonstrate that the proposed TC in-memory accelerator outperforms the state-of-the-art GPU and FPGA accelerations by 12.2x and 31.8x, respectively, and achieves a 34x energy efficiency improvement over the FPGA accelerator.

研究动机与目标

解决冯·诺依曼架构中因高随机内存访问和低计算-内存比导致的三角计数（TC）内存带宽瓶颈问题。
通过仅使用位运算（按位与AND和位计数BitCount）重述三角计数，实现在内存内计算中的高效执行，这些运算原生支持于内存内计算。
设计一种基于STT-MRAM的稀疏感知计算-内存处理（PIM）架构，支持高效的数据压缩、切片和原位计算。
通过数据重用和基于优先级的替换策略，最小化内存写操作，降低能耗和延迟。
通过器件到架构的协同仿真验证所提系统，证明其在CPU、GPU和FPGA加速器上均具有显著的性能和能效优势。

提出的方法

仅使用位逻辑重述三角计数：通过邻接位图上的按位与操作计算三角形数量，并随后进行位计数（BitCount）。
提出一种自定义数据切片技术，将邻接位图划分为固定大小的切片（64位），以利用稀疏性并减少冗余计算。
设计一种稀疏感知图压缩方法，仅存储非零切片，实现内存占用和计算量最高达99.99%的减少。
实现一种数据重用策略，将频繁访问的切片缓存在片上内存中，平均减少60.5%的写操作。
引入基于优先级的数据替换策略，与LRU相比，数据替换最多减少30.1%，提升大规模图处理的效率。
开发一种器件到架构的协同仿真框架，将SPICE仿真中提取的MTJ参数与NVSim及行为级仿真器集成，以估算能耗和延迟。

实验结果

研究问题

RQ1三角计数能否仅通过位运算（按位与AND和位计数BitCount）重述，以实现高效的内存内计算？
RQ2如何有效压缩稀疏图数据并将其映射到内存内处理单元，以最小化数据移动和计算量？
RQ3在内存内三角计数加速器中，哪些数据管理策略（重用与替换）最有效地减少内存写操作？
RQ4基于STT-MRAM的PIM架构在三角计数任务中，相较于传统GPU和FPGA加速器，在性能和能效方面能提升多少？
RQ5算法级优化与PIM架构的集成如何影响整体系统效率和可扩展性？

主要发现

所提出的TCIM加速器在真实世界图上相比最先进的GPU加速器实现12.2倍加速，相比FPGA加速器实现31.8倍加速。
在单核CPU和16 MB STT-MRAM阵列下，系统相比CPU基线实现53.7倍加速，得益于数据切片和重用；结合PIM后额外获得25.5倍加速，总计相比CPU实现1370倍加速。
TCIM的能效相比能效型FPGA实现高出34倍，主要归因于STT-MRAM的非易失性特性及原位计算能力。
基于优先级的数据替换策略相比LRU最多减少30.1%的数据替换，显著提升内存访问效率。
数据切片与压缩策略平均将有效切片数量减少99.99%，其中五个最大图（如com-LiveJournal）实现99.999%的稀疏度和0.01%的压缩率。
器件到架构的协同仿真框架成功验证了系统性能，表明算法-架构协同设计可实现性能和能效的量级级提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。