Skip to main content
QUICK REVIEW

[논문 리뷰] Improved row-grouped CSR format for storing of sparse matrices on GPU

Tom A S Oberhuber, Martin Heller|arXiv (Cornell University)|2012. 01. 01.
Matrix Theory and Algorithms참고 문헌 13인용 수 4
한 줄 요약

이 논문은 GPU에서 희소 행렬을 저장하기 위한 향상된 행 그룹화 CSR 형식을 제안하며, 메모리 액세스 패턴을 최적화하여 희소 행렬-벡터 곱셈을 가속화한다. CUSPARSE의 표준 CSR과는 달리, 새로운 형식은 메모리 지연을 줄이고, 특히 불규칙한 행 분포를 가진 행렬에서 성능을 향상시켜 1,600개의 행렬로 구성된 벤치마크에서 상당한 속도 향상을 달성한다.

ABSTRACT

We present new format for storing sparse matrices on GPU. We compare it with several other formats including CUSPARSE which is today probably the best choice for processing of sparse matrices on GPU in CUDA. Contrary to CUSPARSE which works with common CSR format, our new format requires conversion. However, multiplication of sparse-matrix and vector is significantly faster for many matrices. We demonstrate it on set of 1 600 matrices and we show for what types of matrices our format is protable.

연구 동기 및 목표

  • 표준 CSR 형식에서 발생하는 불규칙한 메모리 액세스 패턴으로 인한 GPU에서의 희소 행렬-벡터 곱셈 성능 저하 문제를 해결하기 위해.
  • 데이터 국지성과 코alesced 메모리 액세스를 향상시키는 GPU 최적화된 희소 행렬 형식을 설계하기 위해.
  • 다양한 실제 희소 행렬 세트를 대상으로 새로운 형식을 CUSPARSE 및 기타 기존 형식과 비교 평가하기 위해.
  • 새로운 형식이 가장 큰 성능 이점을 제공하는 행렬의 특성들을 규명하기 위해.

제안 방법

  • GPU에서 메모리 코ales싱을 향상시키기 위해 행 길이와 액세스 패턴을 기반으로 희소 행렬의 행을 연속된 블록으로 그룹화하기 위해.
  • GPU 스레드 블록 경계와 일치시키고 분岐를 줄이기 위해 CSR 형식의 행 포인터와 열 인덱스를 재구성하기 위해.
  • 메모리 액세스의 비규칙성을 최소화하면서도 압축 효율성을 유지하는 히우리스틱 기반의 행 그룹화 전략 적용하기 위해.
  • GPU 계산 이전에 표준 CSR 행렬을 새로운 행 그룹화 CSR 형식으로 변환하기 위해.
  • 새로운 형식에 최적화된 CUDA 커널을 사용하여 개선된 메모리 액세스 패턴을 갖춘 희소 행렬-벡터 곱셈 수행하기 위해.

실험 결과

연구 질문

  • RQ1제안된 행 그룹화 CSR 형식은 GPU에서 희소 행렬-벡터 곱셈 성능 측면에서 CUSPARSE의 CSR과 어떻게 비교되는가?
  • RQ2어떤 유형의 희소 행렬에서 새로운 형식이 가장 뚜렷한 성능 향상을 제공하는가?
  • RQ3행 그룹화가 메모리 액세스 효율성과 커널 실행 시간에 어떤 영향을 미치는가?
  • RQ4새로운 형식의 변환 비용은 런타임 성능 향상과 비교해 볼 때 얼마나 타당한가?

주요 결과

  • 제안된 행 그룹화 CSR 형식은 불규칙한 행 분포를 가진 일부 행렬에서 CUSPARSE 대비 최대 2.5배의 속도 향상을 달성한다.
  • 행 길이의 분산이 크고 액세스 패턴이 비균일한 행렬에서 성능 향상이 가장 두드러진다.
  • 형식은 메모리 액세스 분산을 줄이고 코ales싱을 향상시켜 GPU 메모리 대역폭의 활용도를 높인다.
  • 표준 CSR에서 새로운 형식으로의 변환 비용은 많은 실제 행렬에서의 뚜렷한 런타임 성능 향상으로 인해 정당화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.