QUICK REVIEW

[논문 리뷰] ISM2: Optimizing Irregular-Shaped Matrix-Matrix Multiplication on GPUs

Cody Rivera, Jieyang Chen|arXiv (Cornell University)|2020. 02. 09.

Parallel Computing and Optimization Techniques참고 문헌 22인용 수 5

한 줄 요약

이 논문은 불규칙한 모양의 높고 얇은 행렬 간 행렬곱을 위한 GPU 최적화 알고리즘 TSM2R와 TSM2L을 제안하며, 비균일한 행렬 형상에 적합한 데이터 접근 및 스레드 매핑 전략을 재구성함으로써 최대 3.5배의 성능 향상과 메모리 대역폭 향상(최대 55% 향상) 및 계산 자원 활용도 향상을 달성한다.

ABSTRACT

Linear algebra operations have been widely used in big data analytics and scientific computations. Many works have been done on optimizing linear algebra operations on GPUs with regular-shaped input. However, few works focus on fully utilizing GPU resources when the input is not regular-shaped. Current optimizations do not consider fully utilizing the memory bandwidth and computing power; therefore, they can only achieve sub-optimal performance. In this paper, we propose two efficient algorithms -- TSM2R and TSM2L -- for two classes of tall-and-skinny matrix-matrix multiplications on GPUs. Both of them focus on optimizing linear algebra operation with at least one of the input matrices is tall-and-skinny. Specifically, TSM2R is designed for a large regular-shaped matrix multiplying a tall-and-skinny matrix, while TSM2L is designed for a tall-and-skinny matrix multiplying a small regular-shaped matrix. We implement our proposed algorithms and test on several modern NVIDIA GPU micro-architectures. Experiments show that, compared to the current state-of-the-art works, (1) TSM2R speeds up the computation by 1.1x~3x and improves the memory bandwidth utilization and computing power utilization by 8%~47.6% and 7%~37.3%, respectively, when the regular-shaped matrix size is relatively large or medium; and (2) TSM2L speeds up the computation by 1.1x~3.5x and improve the memory bandwidth utilization by up to 55% when the regular-shaped matrix size is relatively small.

연구 동기 및 목표

특히 높고 얇은 행렬에 대해 GPU 메모리 대역폭과 계산 자원 활용도가 낮은 문제를 해결한다.
두 가지 일반적인 케이스에 최적화된 성능을 제공한다: 큰 규칙적인 형상의 행렬 × 높고 얇은 행렬 (TSM2R), 높고 얇은 행렬 × 작은 규칙적인 형상의 행렬 (TSM2L).
비규칙적인 입력에서 GPU의 잠재적 능력을 충분히 활용하지 못하는 기존 최첨단 기법들을 넘어서 자원 활용도를 향상시킨다.
현대 NVIDIA GPU 마이크로아키텍처에서 맞춤형 메모리 접근 및 스레드 매핑 전략을 통해 더 높은 성능과 효율성을 달성한다.

제안 방법

큰 규칙적인 형상의 행렬과 높고 얇은 행렬 간 곱셈을 최적화하기 위해 메모리 접근 패턴을 재구성하여 코alescing을 향상시키고 뱅크 충돌을 줄인다.
작은 규칙적인 형상의 행렬과 높고 얇은 행렬 간 곱셈을 위한 TSM2L을 구현하며, 중복된 메모리 트랜잭션을 최소화하고 최대의 할당 가능성을 확보한다.
높고 얇은 행렬의 비규칙한 형상 특성에 맞춰 맞춤형 스레드 블록 매핑 및 공유 메모리 토일링 전략을 사용한다.
행렬 차원과 GPU 아키텍처에 따라 동적으로 스레드 블록 차원을 조정하여 GPU 워프 간 워크로드 균형을 맞춘다.
코alesced 및 스트라이드된 접근 패턴을 통해 메모리 접근 패턴을 최적화하여 메모리 대역폭 활용도를 향상시킨다.
다양한 NVIDIA GPU 마이크로아키텍처에서 알고리즘을 평가하고 튜닝하여 이식성과 성능 이식성을 확보한다.

실험 결과

연구 질문

RQ1비규칙한 형상의 행렬곱에서 GPU 메모리 대역폭과 계산 자원 활용도를 어떻게 극대화할 수 있는가? 특히 높고 얇은 행렬에 대해.
RQ2비규칙한 행렬 형상 처리 시 기존 GPU 최적화 커널에서 발생하는 성능 저하 요인은 무엇인가?
RQ3맞춤형 메모리 접근 및 스레드 매핑 전략이 현대 GPU에서 높고 얇은 행렬 곱셈의 성능 향상에 크게 기여할 수 있는가?
RQ4제안된 알고리즘 TSM2R와 TSM2L는 최첨단 기법 대비 속도 향상과 자원 활용도 측면에서 어떻게 비교되는가?

주요 결과

TSM2R는 규칙적인 형상의 행렬이 크거나 중간 크기일 경우 최첨단 기법 대비 1.1배에서 3배의 성능 향상을 기록하며, 메모리 대역폭 활용도가 최대 47.6% 향상된다.
TSM2R는 테스트된 GPU 아키텍처 전반에서 계산 자원 활용도가 7%에서 37.3% 향상된다.
TSM2L은 작은 규칙적인 형상의 행렬에서 최대 3.5배의 성능 향상을 기록하며, 메모리 대역폭 활용도가 최대 55% 향상된다.
제안된 알고리즘은 비규칙한 행렬 형상에서 GPU 메모리 계층 구조와 스레드 수준 병렬 처리를 더 효과적으로 활용함으로써 기존 방법보다 뚜렷한 성능 향상을 달성한다.
성능 향상은 여러 현대형 NVIDIA GPU 마이크로아키텍처에서 일관되게 유지되어 최적화 전략의 견고성을 입증한다.
결과는 GPU에서 비규칙한 행렬 연산의 고성능 달성에 있어 형상 인식 최적화가 필수적임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.