Skip to main content
QUICK REVIEW

[논문 리뷰] Accelerating HPC codes on Intel(R) Omni-Path Architecture networks: From particle physics to Machine Learning

Peter A. Boyle, Michael Chuvelev|arXiv (Cornell University)|2017. 11. 13.
Advanced Data Storage Technologies인용 수 4
한 줄 요약

이 논문은 인텔 옴니패스 아키텍처 클러스터에서 Xeon Phi 72xx 프로세서를 사용하여 근접 와이어스피드 성능을 달성하기 위한 최적화 기법을 제시한다. 주로 구조적 격자 PDE 해석기에서의 홀로 교환과 동기 스토하스틱 그래디언트 디센트에서의 그래디언트 감소라는 두 가지 워크로드에 초점을 맞추고 있다. 2MB 히uge 페이지, 다중 PSM2 엔드포인트, 인텔 MPI 2019의 스레드 동시성 기능을 활용하여 바이두 리서치의 감소 커널에서 10배의 성능 향상을 달성하였으며, 이는 고성능 계산(HPC) 및 머신러닝 워크로드에서 뚜렷한 성능 향상을 보여준다.

ABSTRACT

We discuss practical methods to ensure near wirespeed performance from clusters with either one or two Intel(R) Omni-Path host fabric interfaces (HFI) per node, and Intel(R) Xeon Phi(TM) 72xx (Knight's Landing) processors, and using the Linux operating system. The study evaluates the performance improvements achievable and the required programming approaches in two distinct example problems: firstly in Cartesian communicator halo exchange problems, appropriate for structured grid PDE solvers that arise in quantum chromodynamics simulations of particle physics, and secondly in gradient reduction appropriate to synchronous stochastic gradient descent for machine learning. As an example, we accelerate a published Baidu Research reduction code and obtain a factor of ten speedup over the original code using the techniques discussed in this paper. This displays how a factor of ten speedup in strongly scaled distributed machine learning could be achieved when synchronous stochastic gradient descent is massively parallelised with a fixed mini-batch size. We find a significant improvement in performance robustness when memory is obtained using carefully allocated 2MB huge virtual memory pages, implying that either non-standard allocation routines should be used for communication buffers. These can be accessed via a LD\_PRELOAD override in the manner suggested by libhugetlbfs. We make use of a the Intel(R) MPI 2019 library Technology Preview and underlying software to enable thread concurrency throughout the communication software stake via multiple PSM2 endpoints per process and use of multiple independent MPI communicators. When using a single MPI process per node, we find that this greatly accelerates delivered bandwidth in many core Intel(R) Xeon Phi processors.

연구 동기 및 목표

  • 인텔 옴니패스 아키텍처와 Xeon Phi 72xx 프로세서를 탑재한 클러스터에서 HPC 및 머신러닝 워크로드의 통신 성능을 최적화하기 위해.
  • 특히 2MB 히uge 페이지와 같은 메모리 할당 전략이 통신 버퍼 성능에 미치는 영향을 평가하기 위해.
  • 다중 PSM2 엔드포인트와 독립적인 커뮤니케이터를 통해 MPI 통신 스택에서 스레드 동시성을 구현하기 위해.
  • 구조적 격자 솔버에서의 홀로 교환과 동기 스토하스틱 그래디언트 디센트에서의 그래디언트 감소와 같은 두 가지 대표적 HPC 워크로드에서의 성능 향상을 입증하기 위해.
  • 철저한 메모리 관리와 통신 스택 튜닝을 통해 다중 HFI 시스템에서 근접 와이어스피드 성능을 달성할 수 있음을 보여주기 위해.

제안 방법

  • libhugetlbfs를 사용한 LD_PRELOAD 오버라이드를 통해 통신 버퍼에 2MB 히uge 가상 메모리 페이지를 사용하여 메모리 지연을 감소시키고 대역폭을 향상시키기 위해.
  • 인텔 MPI 2019 테크놀로지 프리뷰를 활용하여 각 프로세스에 다중 PSM2 엔드포인트를 도입하여 통신에서 스레드 수준의 동시성을 가능하게 하기 위해.
  • 다중 독립 MPI 커뮤니케이터를 활용하여 다중 코어 환경에서 통신 작업을 분리하고 가속화하기 위해.
  • 양성격자 PDE 해석기에서 사용되는 카르테시안 커뮤니케이터 홀로 교환의 통신 패턴을 최적화하여 양성격자 양자 chromodynamics 시뮬레이션에 활용하기 위해.
  • 기계학습에서 사용되는 동기 스토하스틱 그래디언트 디센트의 그래디언트 감소 커널에 동일한 최적화 기법을 적용하기 위해.
  • 노드당 하나 또는 두 개의 옴니패스 HFI를 탑재한 시스템에서 노드당 단일 MPI 프로세스를 사용하여 성능 향상 여부를 벤치마킹하기 위해.

실험 결과

연구 질문

  • RQ1인텔 옴니패스 아키텍처와 Xeon Phi 72xx 프로세서를 탑재한 클러스터에서 통신 성능을 어떻게 최대화할 수 있는가?
  • RQ22MB 히uge 페이지는 MPI 통신 버퍼에서 성능 향상에 얼마나 기여하는가?
  • RQ3노드당 다중 PSM2 엔드포인트는 다중 코어 환경에서 제공되는 대역폭을 크게 향상시킬 수 있는가?
  • RQ4제안된 최적화 기법을 적용했을 때 홀로 교환 및 그래디언트 감소 워크로드에서 기대할 수 있는 성능 향상은 어느 정도인가?
  • RQ5메모리 할당 전략과 MPI 스레드 동시성의 조합이 종단 간 응용 프로그램 성능에 어떤 영향을 미치는가?

주요 결과

  • 제안된 최적화 기법을 적용하여 공개된 바이두 리서치 그래디언트 감소 커널에서 10배의 성능 향상을 달성하였다.
  • 2MB 히uge 페이지 사용이 성능의 강건성 향상에 기여하여, 고성능 통신 버퍼를 위해 비표준 메모리 할당 전략이 필수적임을 입증하였다.
  • 노드당 다중 PSM2 엔드포인트 도입으로 스레드 동시성이 효과적으로 구현되어 다중 코어 Xeon Phi 프로세서에서 제공되는 대역폭이 크게 향상되었다.
  • 성능 향상은 노드당 단일 MPI 프로세스를 사용할 경우 가장 두드러졌으며, 이는 프로세스에서 HFI로의 매핑 전략의 중요성을 강조한다.
  • 히uge 페이지와 다중 MPI 커뮤니케이터의 조합이 홀로 교환 및 그래디언트 감소 워크로드 양쪽 모두에서 근접 와이어스피드 성능을 달성하는 데 기여하였다.
  • 고정된 미니배치 크기를 유지한 강한 확장성 분산 머신러닝 환경에서 최적화 기법이 뚜렷한 성능 향상을 보였으며, 수렴 속도 향상이 가능함을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.