Skip to main content
QUICK REVIEW

[논문 리뷰] Beyond BFS: A Comparative Study of Rooted Spanning Tree Algorithms on GPUs

Abhijeet Sahu, Srikar Vilas Donur|arXiv (Cornell University)|2026. 03. 12.
Graph Theory and Algorithms인용 수 0
한 줄 요약

이 논문은 GPU-루트 스패닝 트리에서 BFS, 연결성 기반 방법 및 PR-RST를 비교하고, 오일러 순회가 포함된 GConn이 종종 최상의 성능을 낸다고 결론지으며, 고 직경 그래프에서 최적화된 BFS보다 최대 300배 빠르다고 보여주고, BFS를 기본 접근 방식으로 제시하는 데 도전한다.

ABSTRACT

Rooted spanning trees (RSTs) are a core primitive in parallel graph analytics, underpinning algorithms such as biconnected components and planarity testing. On GPUs, RST construction has traditionally relied on breadth-first search (BFS) due to its simplicity and work efficiency. However, BFS incurs an O(D) step complexity, which severely limits parallelism on high-diameter and power-law graphs. We present a comparative study of alternative RST construction strategies on modern GPUs. We introduce a GPU adaptation of the Path Reversal RST (PR-RST) algorithm, optimizing its pointer-jumping and broadcast operations for modern GPU architecture. In addition, we evaluate an integrated approach that combines a state-of-the-art connectivity framework (GConn) with Eulerian tour-based rooting. Across more than 10 real-world graphs, our results show that the GConn-based approach achieves up to 300x speedup over optimized BFS on high-diameter graphs. These findings indicate that the O(log n) step complexity of connectivity-based methods can outweigh their structural overhead on modern hardware, motivating a rethinking of RST construction in GPU graph analytics.

연구 동기 및 목표

  • BFS를 넘어서 GPU에서 RST 구성을 재고하도록 연결성 기반 방법을 활용한다는 목표를 제시한다.
  • PR-RST를 GPU에 적합한 깊이 효율적 대안으로 평가한다.
  • 현대 GPU에서 효율성을 위한 두 단계(연결성 plus 오일러 순회) 루팅을 조사한다.
  • 실세계 그래프에서의 성능을 정량화하고 RST 방법의 직경 효과를 분석한다.

제안 방법

  • BFS, 연결성 기반 RST(GConn) 및 Cong와 Bader의 PR-RST의 GPU 적응을 구현한다.
  • 통합된 GConn과 오일러 순회 루팅 접근법을 평가한다.
  • 오일러 순회를 연결이 끊긴 숲(disconnected forests)도 처리하도록 조정하고 최신 GPU 라이브러리(CUDA, CUB)로 최적화한다.
  • 데이터 병렬성을 유지하기 위해 포인터 점프, 후크(hooking) 변형 및 경로 반전 최적화를 사용한다.
  • 여러 시도와 중앙값 측정으로 NVIDIA L40s GPU에서 30개 이상의 실세계 그래프의 성능을 측정한다.

실험 결과

연구 질문

  • RQ1어떤 RST 구성 전략(BFS, 연결성 기반, PR-RST)이 실세계 그래프에서 가장 우수한 GPU 성능을 내는가?
  • RQ2그래프 직경이 생성된 루트 스패닝 트리의 성능과 깊이에 어떤 영향을 미치는가?
  • RQ3연결성 기반 접근과 결합될 때 오일러 순회 루팅 오버헤드가 현대 GPU에서 실용적인가?
  • RQ4다른 RST 방법의 트리 깊이가 다운스트림 그래프 분석에 미치는 구조적 함의는 무엇인가?

주요 결과

  • GConn 기반 RST와 오일러 순회를 통해 고 직경 그래프에서 최적화된 BFS 대비 최대 300배의 속도 향상을 달성한다.
  • 연결성 기반 방법은 그래프 직경 변화에 거의 일정한 성능을 유지하는 반면 BFS는 그렇지 않다.
  • GConn 기반 RST는 BFS보다 더 깊은 트리를 생산하는 경향이 있어 깊이-성능 균형을 시사한다.
  • GPU에 대한 경로 반전(RST) 및 PR-RST의 적응은 포인터 점프 및 경로 상의 마킹과 함께 신중하게 구현하면 효과적일 수 있다.
  • 현대화된 CUDA/CUB를 사용할 때도 오일러 순회 기법은 GPU에서 숲을 루트화하는 데 타당하고 유용하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.