QUICK REVIEW

[논문 리뷰] A Framework for High-throughput Sequence Alignment using Real Processing-in-Memory Systems

Safaa Diab, Amir Nassereldine|arXiv (Cornell University)|2022. 08. 02.

Genomics and Phylogenetic Studies인용 수 4

한 줄 요약

이 논문은 UPMEM 시스템과 같은 실제 프로세싱-인-메모리(PIM) 하드웨어를 활용하여 고처리량 이차열 서열 정렬을 가속화하는 프레임워크인 메모리 내 정렬(Alignment-in-Memory, AIM)을 제안한다. 메모리 모듈 내부의 DPU를 사용해 정렬 계산을 메모리에서 직접 수행함으로써, AIM은 전체 스케일의 CPU 시스템 대비 최대 6.15배의 성능 향상을 달성하며, 생물정보학 워크로드에서 메모리 대역폭 제약을 극복할 수 있음을 보여준다.

ABSTRACT

Sequence alignment is a memory bound computation whose performance in modern systems is limited by the memory bandwidth bottleneck. Processing-in-memory architectures alleviate this bottleneck by providing the memory with computing competencies. We propose Alignment-in-Memory (AIM), a framework for high-throughput sequence alignment using processing-in-memory, and evaluate it on UPMEM, the first publicly-available general-purpose programmable processing-in-memory system. Our evaluation shows that a real processing-in-memory system can substantially outperform server-grade multi-threaded CPU systems running at full-scale when performing sequence alignment for a variety of algorithms, read lengths, and edit distance thresholds. We hope that our findings inspire more work on creating and accelerating bioinformatics algorithms for such real processing-in-memory systems. Our code is available at https://github.com/safaad/aim.

연구 동기 및 목표

실제 프로세싱-인-메모리(PIM) 시스템이 시퀀스 정렬을 가속화하는 데 가능한지 여부와 성능을 평가하기 위해.
동적 프ogram밍 기반의 시퀀스 정렬 알고리즘에서 발생하는 메모리 대역폭 제약을 데이터와 계산을 메모리 내에서 공유함으로써 해결하기 위해.
프로그래밍 가능한 PIM 하드웨어에서 다양한 정렬 알고리즘과 메모리 계층 최적화를 지원하는 유연한 프레임워크를 설계하기 위해.
PIM 시스템이 고성능 CPU 시스템보다 시퀀스 정렬 워크로드에서 처리량 측면에서 뛰어나게 성능을 발휘할 수 있음을 입증하기 위해.

제안 방법

프레임워크 이름인 메모리 내 정렬(Alignment-in-Memory, AIM)은 UPMEM PIM 시스템의 여러 메모리 모듈에 걸쳐 시퀀스 쌍을 배포하며, 각 쌍은 로컬 DPU 코어를 사용해 정렬된다.
AIM은 다섯 가지 정렬 알고리즘인 Needleman-Wunsch(NW), Smith-Waterman-Gotoh(SWG), GenASM, 웨이브프론트 알고리즘(WFA), WFA-적응형(WFA-adaptive)을 지원하며, 각 알고리즘은 두 가지 구현 방식을 갖는다.
두 가지 메모리 관리 전략을 사용한다: 하나는 온칩 WRAM만을 사용하고, 다른 하나는 WRAM과 외부 메모리인 MRAM을 모두 사용하며, 데이터 액세스 패턴과 메모리 소비에 따라 맞춤형으로 적용된다.
프레임워크는 각 메모리 모듈당 최적의 DPU 스레드 수를 자동으로 결정하여 자원 활용도를 극대화하고 지연 시간을 최소화한다.
UPMEM의 아키텍처를 활용하며, 이는 일반 목적의 DPU를 DRAM 어레이와 동일한 칩에 통합하여 데이터 근처에서 계산을 수행할 수 있도록 한다.
성능 및 확장성 평가를 위해 다양한 리드 길이, 편집 거리 임계값, 알고리즘 변종을 대상으로 시스템을 평가한다.

실험 결과

연구 질문

RQ1UPMEM과 같은 실제 프로세싱-인-메모리 시스템이 기존 CPU 기반 시스템보다 고처리량 시퀀스 정렬에서 뛰어난 성능을 낼 수 있는가?
RQ2다양한 리드 길이와 편집 거리에서 WRAM 전용 대비 WRAM + MRAM 조합의 메모리 계층 관리 전략이 성능에 어떤 영향을 미치는가?
RQ3알고리즘 선택과 메모리 액세스 패턴이 PIM 기반 시퀀스 정렬의 성능에 미치는 영향은 어떠한가?
RQ4PIM 아키텍처가 동적 프로그래밍 기반 정렬에서 발생하는 메모리 대역폭 제약을 어느 정도 완화할 수 있는가?

주요 결과

WFA 알고리즘을 사용할 경우, 5% 편집 거리와 1,000길이 리드에서 단일 UPMEM 시스템에서 실행된 AIM은 듀얼 소켓 서버급 CPU 시스템 대비 최대 6.15배 빠른 성능을 기록한다.
짧은 리드와 낮은 편집 거리(1%) 조건에서는 WFA와 WFA-adaptive의 WRAM 전용 구현이 각각 최대 1.17배, 1.12배 더 빠르며, 이는 낮은 지연 시간 덕분이다.
긴 리드와 높은 편집 거리(5%) 조건에서는 WFA의 WRAM+MRAM 구현이 최대 6.15배 더 빠르며, 이는 더 높은 메모리 소비와 스레드 수를 효과적으로 지원하기 때문이다.
GenASM 알고리즘은 WRAM 전용 구현에서 가장 큰 이점을 얻어, 1% 편집 거리에서 최대 2.76배의 성능 향상을 기록한다. 이는 높은 스레드 활용도 덕분이다.
편집 거리가 증가할수록 WRAM 전용과 WRAM+MRAM 구현 간 성능 격차가 커지며, 특히 WFA와 같은 메모리 집약적인 알고리즘에서 두드러진다.
전반적으로 AIM는 현재 세대 하드웨어에서도 PIM 기반 시스템이 CPU 기반 시스템보다 처리량 측면에서 뛰어나게 성능을 발휘할 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.