[论文解读] A Framework for High-throughput Sequence Alignment using Real Processing-in-Memory Systems
本文提出了一种名为内存对齐(Alignment-in-Memory, AIM)的框架,通过利用真实的存内计算(PIM)硬件(特别是UPMEm系统)来加速高吞吐量的成对序列比对。通过在内存模块内的DPU上直接执行比对计算,AIM在全规模CPU系统上实现了最高6.15倍的加速,展示了PIM在克服生物信息学工作负载中内存带宽瓶颈方面的潜力。
Sequence alignment is a memory bound computation whose performance in modern systems is limited by the memory bandwidth bottleneck. Processing-in-memory architectures alleviate this bottleneck by providing the memory with computing competencies. We propose Alignment-in-Memory (AIM), a framework for high-throughput sequence alignment using processing-in-memory, and evaluate it on UPMEM, the first publicly-available general-purpose programmable processing-in-memory system. Our evaluation shows that a real processing-in-memory system can substantially outperform server-grade multi-threaded CPU systems running at full-scale when performing sequence alignment for a variety of algorithms, read lengths, and edit distance thresholds. We hope that our findings inspire more work on creating and accelerating bioinformatics algorithms for such real processing-in-memory systems. Our code is available at https://github.com/safaad/aim.
研究动机与目标
- 评估真实存内计算(PIM)系统在加速序列比对方面的可行性与性能。
- 通过将计算与数据在内存中协同放置,解决基于动态规划的序列比对算法中的内存带宽瓶颈问题。
- 设计一个灵活的框架,支持在可编程PIM硬件上运行多种比对算法及内存层次优化。
- 证明PIM系统在序列比对工作负载的吞吐量方面可超越高端CPU系统。
提出的方法
- 该框架名为内存对齐(AIM),将序列对分发到UPMEm PIM系统中的多个内存模块,每个模块使用本地DPU核心执行比对。
- AIM支持五种比对算法:Needleman-Wunsch(NW)、Smith-Waterman-Gotoh(SWG)、GenASM、波前算法(WFA)和WFA自适应版本(WFA-adaptive),每种算法均有两种实现方式。
- 采用两种内存管理策略:一种仅使用片上WRAM,另一种同时使用WRAM与片外MRAM,根据数据访问模式和内存消耗进行优化。
- 框架自动确定每个内存模块的最佳DPU线程数量,以最大化利用率并最小化延迟。
- 利用UPMEm的架构特性,该架构在单芯片上集成了通用DPU与DRAM阵列,实现在数据附近计算。
- 通过改变读长、编辑距离阈值和算法变体,对系统进行评估,以衡量其性能与可扩展性。
实验结果
研究问题
- RQ1像UPMEm这样的真实存内计算系统是否能在高吞吐量序列比对中超越传统的CPU系统?
- RQ2不同的内存层次管理策略(仅WRAM vs. WRAM+MRAM)在不同读长和编辑距离下如何影响性能?
- RQ3算法选择与内存访问模式对PIM加速序列比对的性能有何影响?
- RQ4PIM架构在多大程度上能够缓解基于动态规划的比对算法中的内存带宽瓶颈?
主要发现
- 在单个UPMEm系统上运行的AIM,对于5%编辑距离、1,000长度读长的WFA算法,相比双路服务器级CPU系统最高实现6.15倍加速。
- 对于较短读长和低编辑距离(1%),WFA和WFA自适应的仅WRAM实现分别最高快1.17倍和1.12倍,归因于更低的延迟。
- 对于更长读长和更高编辑距离(5%),WFA的WRAM+MRAM实现最高快6.15倍,因其更优地支持更高的内存消耗和线程数量。
- GenASM算法从仅WRAM实现中获益最多,在1%编辑距离下最高实现2.76倍加速,归因于高线程利用率。
- 随着编辑距离增加,仅WRAM与WRAM+MRAM实现之间的性能差距扩大,尤其在内存密集型算法如WFA中更为显著。
- 总体而言,AIM证明了即使在当前一代硬件上,基于PIM的系统在序列比对的吞吐量方面也可显著超越基于CPU的系统。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。