QUICK REVIEW

[논문 리뷰] Sparse Matrix Multiplication with Bandwidth Restricted All-to-All Communication.

Keren Censor-Hillel, Dean Leitersdorf|arXiv (Cornell University)|2018. 02. 13.

Complexity and Algorithms in Graphs참고 문헌 23인용 수 3

한 줄 요약

이 논문은 대역폭 제한된 전면 대역 전송 라운드를 통해 통신하는 컨제스티드 클리크 모델에서 희소 행렬 곱셈을 위한 결정론적이고 희소성 인식 알고리즘을 제시한다. 매트릭스 요소를 재구조화하여 균형 잡히고 비연속적인 작업 할당을 보장함으로써, o(n²)개 미만의 비영 요소를 가진 매트릭스에 대해 통신 비용을 감소시키고 라운드 복잡도를 향상시킨다. 이는 한 매트릭스만 희소한 경우에도 이전의 작업들보다 우월한 성능을 발휘한다.

ABSTRACT

We show how to multiply two $n imes n$ matrices over semirings in the Congested Clique model, where $n$ nodes synchronously communicate in an all-to-all manner using $O(\log n)$-bit messages, within a round complexity that depends on the number of non-zero elements in the input matrices. By leveraging the sparsity of the input matrices, our algorithm reduces communication costs and thus improves upon the state-of-the-art for matrices with $o(n^2)$ nonzero elements. Moreover, our algorithm exhibits the additional strength of surpassing previous solutions also in the case where only one of the two matrices is such. Particularly, this allows to efficiently raise a sparse matrix to a power greater than 2. As applications, we show how to speed up the computation on non-dense graphs of 3- and 4-cycle counting, as well as of all-pairs-shortest-paths. Our algorithmic contribution is a new deterministic method of restructuring the input matrices in a sparsity-aware manner, which assigns each node with element-wise multiplication tasks that are not necessarily consecutive but guarantee a balanced element distribution, providing for communication-efficient multiplication. As such, our technique may be useful in additional computational models.

연구 동기 및 목표

모든 노드가 O(log n)-비트 메시지로 제한된 전면 대역 전송을 수행하는 컨제스티드 클리크 모델에서 희소 행렬 곱셈의 통신 오버헤드를 줄이기 위해.
o(n²)개 이하의 비영 요소를 가진 매트릭스에 대해 희소성을 통신 효율적으로 활용하여 라운드 복잡도를 향상시키기 위해.
비연속적이면서 균형 잡힌 곱셈 작업을 노드에 할당하는 결정론적 방법을 개발하여 부하 균형과 데이터 이동 감소를 보장하기 위해.
오직 한 입력 매트릭스만 희소한 경우에도 2보다 큰 희소 행렬 거듭제곱을 효율적으로 계산할 수 있도록 하기 위해.
3- 및 4-사이클 수세기 및 밀도가 높지 않은 그래프에서의 전쌍 최단경로와 같은 기본적인 그래프 알고리즘을 가속화하기 위해.

제안 방법

알고리즘은 각 노드가 비연속적이며 균형 잡힌 요소별 곱셈 작업 세트를 할당받을 수 있도록 입력 매트릭스를 희소성 인식 방식으로 재구조화한다.
부하 균형을 보장하면서도 통신 볼륨을 최소화하는 결정론적 데이터 배분 전략을 사용한다.
각 노드는 할당된 매트릭스 요소에서 국소적으로 곱셈을 수행하고, O(log n)-비트 메시지를 통해 필요한 부분 결과만 통신한다.
비대칭적 희소성도 지원하여, 오직 한 입력 매트릭스만 희소한 경우에도 우수한 성능을 발휘한다.
반복 연산의 구조를 활용하여 중복 계산과 통신을 최소화한다.
중복 데이터 전송을 피하고 각 비영 요소가 각 노드당 정확히 한 번의 곱셈 작업에 기여하도록 하여 통신 효율성을 확보한다.

실험 결과

연구 질문

RQ1희소성과 대역폭 제한을 활용하여 컨제스티드 클리크 모델에서 희소 행렬 곱셈을 더 효율적으로 수행할 수 있는가?
RQ2비연속적이며 균형 잡힌 작업 할당은 전면 대역 모델에서 부하 균형과 통신 감소에 어떻게 기여하는가?
RQ3오직 한 입력 매트릭스만 희소한 경우에도 제안된 방법이 기존 알고리즘을 능가하는가?
RQ4이 방법은 3- 및 4-사이클 수세기 및 전쌍 최단경로와 같은 그래프 알고리즘의 가속화에 어느 정도 기여하는가?
RQ5이 방법은 컨제스티드 클리크를 초월한 다른 계산 모델로 일반화될 수 있는가?

주요 결과

입력 매트릭스의 비영 요소 수가 o(n²)일 경우, 이 알고리즘은 이전 방법보다 향상된 라운드 복잡도를 달성한다.
오직 두 매트릭스 중 하나만 희소한 경우에도 효율성을 유지하여, 2보다 큰 희소 행렬 거듭제곱의 효율적 계산을 가능하게 한다.
매트릭스를 비연속적이며 균형 잡힌 작업 할당 방식으로 재구조화함으로써 통신 비용이 크게 감소한다.
희소 행렬 연산을 활용함으로써 밀도가 높지 않은 그래프에서 3- 및 4-사이클 수세기 및 전쌍 최단경로 계산을 더 빠르게 수행할 수 있다.
결정론적이고 희소성 인식 데이터 배포는 컨제스티드 클리크 모델에서 부하 균형을 보장하고 중복 통신을 최소화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.