[논문 리뷰] Performance Evaluation of Sparse Matrix Multiplication Kernels on
이 논문은 512비트 SIMD 유닛을 갖춘 고코어 수의 코프로세서인 인텔 Xeon Phi에서 희소 행렬-벡터 곱셈(SpMV) 성능을 평가한다. 높은 메모리 대역폭에도 불구하고 메모리 지연 시간이 SpMV 성능을 제한하지만, 스케일러블 코어 아키텍처와 효율적인 스레드 수준 병렬 처리 덕분에 Xeon Phi는 일반 목적의 CPU와 GPU보다 뛰어난 성능을 보인다.
Intel Xeon Phi is a recently released high-performance coprocessor which features 61 cores each sup- porting 4 hardware threads with 512-bit wide SIMD registers achieving a peak theoretical performance of 1Top/s in double precision. Many scientic applications involve operations on large sparse matrices such as linear solvers, eigensolver, and graph mining algorithms. The core of most of these applications involves the multiplication of a large, sparse matrix with a dense vector (SpMV). In this paper, we investigate the performance of the Xeon Phi coprocessor for SpMV. We rst provide a comprehensive introduction to this new architecture and analyze its peak performance with a number of micro bench- marks. Although the design of a Xeon Phi core is not much dierent than those of the cores in modern processors, its large number of cores and hyperthreading capability allow many application to saturate the available memory bandwidth, which is not the case for many cutting-edge processors. Yet, our per- formance studies show that it is the memory latency not the bandwidth which creates a bottleneck for SpMV on this architecture. Finally, our experiments show that Xeon Phi's sparse kernel performance is very promising and even better than that of cutting-edge general purpose processors and GPUs.
연구 동기 및 목표
- 희소 행렬-벡터 곱셈(SpMV)의 성능을 평가하여 과학 계산에서 핵심적인 역할을 하는 커널의 성능을 분석한다.
- Xeon Phi의 고코어 수와 넓은 SIMD 유닛이 SpMV 워크로드에서 메모리 대역폭 제한을 극복할 수 있는지 분석한다.
- Xeon Phi 아키텍처에서 SpMV의 주요 성능 병목 요인이 메모리 대역폭인지, 메모리 지연 시간인지 규명한다.
- 유사한 SpMV 워크로드 조건에서 최신 일반 목적의 CPU와 GPU와의 성능을 비교한다.
제안 방법
- Xeon Phi 아키텍처의 최고 성능와 메모리 대역폭을 특성화하기 위해 마이크로 벤치마크를 실시하였다.
- 대표적인 희소 행렬과 밀집 벡터 워크로드를 사용하여 Xeon Phi 코프로세서에서 표준 SpMV 커널을 구현하고 평가하였다.
- 다양한 희소 행렬 형식과 액세스 패턴을 측정하여 메모리 지연 시간의 영향을 분리하였다.
- 스레드 수준 병렬 처리와 하이퍼스레딩을 활용하여 가용 메모리 대역폭을 포화 상태로 만들고 확장성을 평가하였다.
- 동일한 SpMV 워크로드 조건에서 Xeon Phi의 성능 지표(GFLOPS)를 최신 기술의 CPU와 GPU와 비교하였다.
- 512비트 SIMD 유닛과 코어 수가 산술 강도와 메모리 스루풋을 향상시키는 데 미치는 영향을 분석하였다.
실험 결과
연구 질문
- RQ1Xeon Phi의 고코어 수와 넓은 SIMD 유닛 덕분에 기존 프로세서보다 우수한 SpMV 성능을 달성할 수 있는가?
- RQ2Xeon Phi에서 SpMV의 주요 병목 요인이 메모리 대역폭인지, 아니면 메모리 지연 시간인지?
- RQ3Xeon Phi의 SpMV 커널 성능은 최신 일반 목적의 CPU와 GPU와 비교해 어떻게 되는가?
- RQ4하이퍼스레딩과 스레드 수준 병렬 처리가 Xeon Phi에서 SpMV 워크로드에 대해 얼마나 효과적으로 메모리 대역폭을 포화 상태로 만들 수 있는가?
주요 결과
- 이중 정밀도에서 이론적 최고 성능 1 TFLOP/s를 달성했음에도 불구하고, Xeon Phi의 SpMV 성능은 메모리 대역폭이 아닌 메모리 지연 시간에 의해 제한된다.
- Xeon Phi의 많은 코어와 하이퍼스레딩 기능 덕분에 응용 프로그램이 가용 메모리 대역폭을 포화 상태로 만들 수 있으며, 이는 많은 현대 일반 목적 프로세서에서 일관되게 달성되지 않는 능력이다.
- Xeon Phi는 SpMV 워크로드에서 최신 일반 목적의 CPU와 GPU를 모두 능가하며, 희소 커널 계산에 있어 뛰어난 성능을 보여준다.
- Xeon Phi의 성능 우월성은 불규칙한 메모리 액세스 패턴을 특징으로 하는 희소 행렬의 특성에 맞게 스레드 수준 병렬 처리와 512비트 SIMD 유닛을 효율적으로 활용하기 때문이며,
- 마이크로 벤치마크 결과, Xeon Phi 아키텍처에서 SpMV의 주요 성능 병목 요인은 대역폭이 아니라 지연 시간임을 확인하였다.
- 결과적으로 Xeon Phi는 선형 해법기와 그래프 마이닝 알고리즘을 포함한 희소 행렬 연산에 의존하는 과학 응용 프로그램에 특히 적합하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.