QUICK REVIEW

[논문 리뷰] Beyond BFS: A Comparative Study of Rooted Spanning Tree Algorithms on GPUs

Abhijeet Sahu, Srikar Vilas Donur|arXiv (Cornell University)|2026. 03. 12.

Graph Theory and Algorithms인용 수 0

한 줄 요약

이 논문은 GPU-루트 스패닝 트리에서 BFS, 연결성 기반 방법 및 PR-RST를 비교하고, 오일러 순회가 포함된 GConn이 종종 최상의 성능을 낸다고 결론지으며, 고 직경 그래프에서 최적화된 BFS보다 최대 300배 빠르다고 보여주고, BFS를 기본 접근 방식으로 제시하는 데 도전한다.

ABSTRACT

Rooted spanning trees (RSTs) are a core primitive in parallel graph analytics, underpinning algorithms such as biconnected components and planarity testing. On GPUs, RST construction has traditionally relied on breadth-first search (BFS) due to its simplicity and work efficiency. However, BFS incurs an O(D) step complexity, which severely limits parallelism on high-diameter and power-law graphs. We present a comparative study of alternative RST construction strategies on modern GPUs. We introduce a GPU adaptation of the Path Reversal RST (PR-RST) algorithm, optimizing its pointer-jumping and broadcast operations for modern GPU architecture. In addition, we evaluate an integrated approach that combines a state-of-the-art connectivity framework (GConn) with Eulerian tour-based rooting. Across more than 10 real-world graphs, our results show that the GConn-based approach achieves up to 300x speedup over optimized BFS on high-diameter graphs. These findings indicate that the O(log n) step complexity of connectivity-based methods can outweigh their structural overhead on modern hardware, motivating a rethinking of RST construction in GPU graph analytics.

연구 동기 및 목표

BFS를 넘어서 GPU에서 RST 구성을 재고하도록 연결성 기반 방법을 활용한다는 목표를 제시한다.
PR-RST를 GPU에 적합한 깊이 효율적 대안으로 평가한다.
현대 GPU에서 효율성을 위한 두 단계(연결성 plus 오일러 순회) 루팅을 조사한다.
실세계 그래프에서의 성능을 정량화하고 RST 방법의 직경 효과를 분석한다.

제안 방법

BFS, 연결성 기반 RST(GConn) 및 Cong와 Bader의 PR-RST의 GPU 적응을 구현한다.
통합된 GConn과 오일러 순회 루팅 접근법을 평가한다.
오일러 순회를 연결이 끊긴 숲(disconnected forests)도 처리하도록 조정하고 최신 GPU 라이브러리(CUDA, CUB)로 최적화한다.
데이터 병렬성을 유지하기 위해 포인터 점프, 후크(hooking) 변형 및 경로 반전 최적화를 사용한다.
여러 시도와 중앙값 측정으로 NVIDIA L40s GPU에서 30개 이상의 실세계 그래프의 성능을 측정한다.

실험 결과

연구 질문

RQ1어떤 RST 구성 전략(BFS, 연결성 기반, PR-RST)이 실세계 그래프에서 가장 우수한 GPU 성능을 내는가?
RQ2그래프 직경이 생성된 루트 스패닝 트리의 성능과 깊이에 어떤 영향을 미치는가?
RQ3연결성 기반 접근과 결합될 때 오일러 순회 루팅 오버헤드가 현대 GPU에서 실용적인가?
RQ4다른 RST 방법의 트리 깊이가 다운스트림 그래프 분석에 미치는 구조적 함의는 무엇인가?

주요 결과

GConn 기반 RST와 오일러 순회를 통해 고 직경 그래프에서 최적화된 BFS 대비 최대 300배의 속도 향상을 달성한다.
연결성 기반 방법은 그래프 직경 변화에 거의 일정한 성능을 유지하는 반면 BFS는 그렇지 않다.
GConn 기반 RST는 BFS보다 더 깊은 트리를 생산하는 경향이 있어 깊이-성능 균형을 시사한다.
GPU에 대한 경로 반전(RST) 및 PR-RST의 적응은 포인터 점프 및 경로 상의 마킹과 함께 신중하게 구현하면 효과적일 수 있다.
현대화된 CUDA/CUB를 사용할 때도 오일러 순회 기법은 GPU에서 숲을 루트화하는 데 타당하고 유용하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.