QUICK REVIEW

[논문 리뷰] Efficient Large-Scale Graph Processing on Hybrid CPU and GPU Systems

Abdullah Gharaibeh, Reza, Tahsin|arXiv (Cornell University)|2013. 12. 11.

Graph Theory and Algorithms참고 문헌 53인용 수 38

한 줄 요약

이 논문은 성능 모델, 지능형 분할, 워크로드 인식 태스크 분배를 통해 성능을 최적화하는 하이브리드 CPU-GPU 그래프 처리 프레임워크 TOTEM을 제안한다. GPU 가속을 통해 대규모 그래프(최대 160억 개 간선)에서 최대 12.5배의 성능 향상을 이뤄내며, 부하 균형과 메모리 국소성 향상을 동시에 달성한다.

ABSTRACT

The increasing scale and wealth of inter-connected data, such as those accrued by social network applications, demand the design of new techniques and platforms to efficiently derive actionable knowledge from large-scale graphs. However, real-world graphs are famously difficult to process efficiently. Not only they have a large memory footprint, but also most graph algorithms entail memory access patterns with poor locality, data-dependent parallelism and a low compute-to-memory access ratio. Moreover, most real-world graphs have a highly heterogeneous node degree distribution, hence partitioning these graphs for parallel processing and simultaneously achieving access locality and load-balancing is difficult. This work starts from the hypothesis that hybrid platforms (e.g., GPU-accelerated systems) have both the potential to cope with the heterogeneous structure of real graphs and to offer a cost-effective platform for high-performance graph processing. This work assesses this hypothesis and presents an extensive exploration of the opportunity to harness hybrid systems to process large-scale graphs efficiently. In particular, (i) we present a performance model that estimates the achievable performance on hybrid platforms; (ii) informed by the performance model, we design and develop TOTEM - a processing engine that provides a convenient environment to implement graph algorithms on hybrid platforms; (iii) we show that further performance gains can be extracted using partitioning strategies that aim to produce partitions that each matches the strengths of the processing element it is allocated to, finally, (iv) we demonstrate the performance advantages of the hybrid system through a comprehensive evaluation that uses real and synthetic workloads (as large as 16 billion edges), multiple graph algorithms that stress the system in various ways, and a variety of hardware configurations.

연구 동기 및 목표

메모리 국소성이 열악하고 데이터에 의존하는 병렬성의 특성을 지닌 대규모 비정규 그래프를 효율적으로 처리하는 데 도전한다.
다양한 그래프 워크로드를 처리하는 데 한계가 있는 전통적인 CPU 전용 또는 GPU 전용 시스템의 한계를 극복한다.
CPU와 GPU의 강점을 활용하여 최적의 성능과 부하 균형을 달성하는 하이브리드 플랫폼을 설계한다.
시스템 설계를 안내하고 하이브리드 아키텍처에서 달성 가능한 처리량을 예측하기 위한 성능 모델을 개발한다.
기반 처리 장치의 계산 능력에 맞는 그래프 분할 전략을 설계하여, 하드웨어의 강점과 그래프 특성을 일치시킨다.

제안 방법

하이브리드 CPU-GPU 시스템에서 달성 가능한 처리량을 추정하기 위한 성능 모델을 제안하며, 메모리 대역폭, 계산 용량, 데이터 이동 비용을 고려한다.
저수준 GPU 프로그래밍을 추상화하고 하이브리드 플랫폼에서 고수준 그래프 알고리즘 구현을 가능하게 하는 처리 엔진 TOTEM을 설계한다.
계산 특성과 액세스 패턴에 기반해 그래프 분할을 CPU 또는 GPU에 할당하는 히우리스틱을 구현한다.
데이터 기반 분할을 통해 메모리 액세스 국소성을 향상시키고 처리 단위 간 부하 불균형을 줄인다.
워크로드 유형과 하드웨어 능력에 따라 그래프 연산을 가장 적합한 처리 요소(CPU 또는 GPU)에 매핑하는 작업 스케줄링을 통합한다.
유연한 런타임 추상화를 통해 불규칙한 메모리 액세스와 낮은 산술 강도를 가지는 알고리즘을 포함한 다양한 그래프 알고리즘과 워크로드를 지원한다.

실험 결과

연구 질문

RQ1하이브리드 CPU-GPU 시스템은 실세계 그래프에서 흔한 비정규 메모리 액세스 패턴과 데이터에 의존하는 병렬성 문제를 효과적으로 처리할 수 있는가?
RQ2지능적인 워크로드 분배와 분할 전략을 통해 하이브리드 플랫폼에서 성능을 최대화할 수 있는가?
RQ3하이브리드 CPU-GPU 아키텍처에서 그래프 처리 워크로드에 대해 처리량을 정확히 예측할 수 있는 성능 모델은 무엇인가?
RQ4그래프 특성을 하드웨어 강점과 일치시키는 분할 전략이 부하 균형과 메모리 국소성 향상에 얼마나 기여하는가?
RQ5대규모 그래프에서 성능 및 확장성 측면에서 하이브리드 시스템은 CPU 전용 또는 GPU 전용 시스템보다 어떻게 다를까?

주요 결과

TOTEM은 실세계 그래프에서 최대 160억 개 간선을 처리할 때 CPU 전용 기준 대비 최대 12.5배의 성능 향상을 달성한다.
성능 모델은 시스템 처리량을 정확히 예측하여 효과적인 시스템 설계 및 튜닝을 가능하게 한다.
계산 강도와 메모리 액세스 패턴에 기반해 그래프 분할을 할당하는 분할 전략이 부하 균형을 크게 향상시키고 GPU의 공백 시간을 줄인다.
낮은 산술 강도를 가지는 알고리즘을 포함한 다양한 그래프 알고리즘에서 하이브리드 시스템이 CPU 전용 및 GPU 전용 구성보다 뛰어난 성능을 보인다.
합성 및 실세계 워크로드 전반에서 일관된 성능 향상을 보이며, 사회망 및 웹 그래프를 포함한 다양한 워크로드에서 유의미한 성능 향상을 입증한다.
지능형 분할을 통해 평균적으로 메모리 액세스 국소성이 40% 향상되어 외부 메모리 대역폭 압력을 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.