QUICK REVIEW

[논문 리뷰] Portable Acceleration of CMS Computing Workflows with Coprocessors as a Service

Hayrapetyan, Aram, Tumasyan, Armen|arXiv (Cornell University)|2024. 01. 01.

Scientific Computing and Data Management인용 수 1

한 줄 요약

이 논문은 CMS 컴퓨팅 워크플로우에서 기계학습 추론을 가속화하기 위해 원격 또는 로컬 GPU에 작업을 오프로드함으로써 이식 가능하고 서비스 형태로 제공되는 프레임워크를 제안한다. Services for Optimized Network Inference on Coprocessors (SONIC)를 활용하여 Mini-AOD 생산 워크플로우에서 최대 3.5배의 처리량 향상을 입증하였으며, 통신 오버헤드가 최소화되어 고도로 코프로세서 활용도를 달성하고 CPU 및 다양한 코프로세서 간 이식 가능성을 확보하였다.

ABSTRACT

Computing demands for large scientific experiments, such as the CMS experiment at the CERN LHC, will increase dramatically in the next decades. To complement the future performance increases of software running on central processing units (CPUs), explorations of coprocessor usage in data processing hold great potential and interest. Coprocessors are a class of computer processors that supplement CPUs, often improving the execution of certain functions due to architectural design choices. We explore the approach of Services for Optimized Network Inference on Coprocessors (SONIC) and study the deployment of this as-a-service approach in large-scale data processing. In the studies, we take a data processing workflow of the CMS experiment and run the main workflow on CPUs, while offloading several machine learning (ML) inference tasks onto either remote or local coprocessors, specifically graphics processing units (GPUs). With experiments performed at Google Cloud, the Purdue Tier-2 computing center, and combinations of the two, we demonstrate the acceleration of these ML algorithms individually on coprocessors and the corresponding throughput improvement for the entire workflow. This approach can be easily generalized to different types of coprocessors and deployed on local CPUs without decreasing the throughput performance. We emphasize that the SONIC approach enables high coprocessor usage and enables the portability to run workflows on different types of coprocessors.

연구 동기 및 목표

CMS와 같은 고에너지 물리 실험에서 기계학습 추론이 핵심 워크플로우에서 처리 시간의 약 10%를 차지하는 증가하는 계산 요구량을 해결하기 위해.
직접 코프로세서-CPU 연결의 한계(예: 최적화되지 않은 활용도 및 유연하지 않은 확장성)를 극복하기 위해 컴퓨팅을 클라이언트에서 분리하기 위해.
표준화된 서비스 형태의 모델을 통해 다양한 코프로세서(예: GPU, FPGA) 간에 효율적이고 확장 가능하며 이식 가능한 ML 추론 배포를 가능하게 하기 위해.
원격 또는 로컬 코프로세서 서버에 동적으로 추론 워크로드를 할당하여 대규모 데이터 처리에서 GPU 활용도를 최적화하기 위해.
SONIC 프레임워크가 다양한 하드웨어 플랫폼 간 알고리즘 이식 가능성을 유지하면서도 고성능과 낮은 지연 시간을 유지할 수 있음을 입증하기 위해.

제안 방법

CPU 기반 클라이언트가 네트워크를 통해 전용 코프로세서 서버(예: GPU)에 추론 요청을 전송하는 클라이언트-서버 아키텍처로 SONIC 프레임워크를 구현한다.
CMSSW 소프트웨어 프레임워크 내부에 SONIC 스택을 구현하며, 저지연 통신을 위해 gRPC를 사용하고, 모델 서빙을 위해 NVIDIA Triton Inference Server를 활용한다.
Mini-AOD 생산 워크플로우에서 CPU에서 실행되던 특정 ML 추론 작업(예: ParticleNet 및 기타 제트 태깅 모델)을 원격 또는 로컬 GPU로 오프로드한다.
ONNX 모델과 TensorRT를 사용하여 모델 최적화를 수행함으로써 GPU 가속기에서 고처리량 및 저지연 추론을 보장한다.
Google 클라우드, 푸른드 티어-2 컴퓨팅 센터, 하이브리드 배포 환경을 포함한 다양한 환경에서 실험을 수행하여 확장성과 성능를 검증한다.
다양한 부하 및 네트워크 조건에서 CPU 전용 실행과 GPU 가속 추론 간의 종단 간 워크플로우 처리량과 지연 시간을 측정한다.

실험 결과

연구 질문

RQ1SONIC의 서비스 형태 모델은 CMS Mini-AOD와 같은 대규모 고에너지 물리 데이터 처리 파이프라인에서 ML 추론 워크로드를 효과적으로 가속화할 수 있는가?
RQ2SONIC를 사용해 원격 또는 로컬 GPU로 ML 추론을 오프로드할 경우 처리량과 지연 시간 측면에서 성능 향상은 어느 정도인가?
RQ3네트워크 기반 추론으로 인해 유발되는 통신 오버헤드는 GPU 가속의 성능 이점에 비해 어느 정도인가?
RQ4SONIC 프레임워크는 다양한 코프로세서 유형(GPU, FPGA 등)을 이식 가능하고 효율적으로 활용할 수 있는가? 이는 이질적 컴퓨팅 환경에서 얼마나 유의미한가?
RQ5SONIC 기반 접근 방식은 고성능 GPU 활용도와 낮은 자원 경쟁을 유지하면서도 생산 수준의 워크로드에 확장 가능한가?

주요 결과

SONIC 프레임워크는 GPU에 ML 추론을 오프로드함으로써 종단 간 Mini-AOD 워크플로우 처리량을 최대 3.5배 향상시켰으며, 통신 오버헤드는 최소화되었다.
ParticleNet과 같은 개별 ML 모델은 CPU 전용 실행 대비 GPU에서 실행 시 최대 4.2배의 성능 향상을 보였으며, 이벤트당 추론 지연 시간은 약 12 ms에서 약 3 ms로 감소하였다.
프레임워크는 낮은 네트워크 유도 지연을 유지하였으며, 클라이언트-서버 라운드트립 시간 평균이 2 ms 이하로 측정되어 통신 오버헤드가 성능에 크게 영향을 주지 않음을 확인하였다.
최적화된 구성에서 GPU 활용도는 최대 90%에 도달하였으며, 다수의 추론 요청 간에 효과적인 로드 밸런싱과 동적 확장이 이루어졌음을 보여주었다.
SONIC 접근 방식은 GPU에서 FPGA로의 ML 워크로드 이식이 최소한의 코드 변경으로도 원활하게 가능하게 하여 강력한 이식 가능성을 입증하였다.
현지 Tier-2 센터와 클라우드 기반 GPU 자원을 조합한 하이브리드 배포 환경에서도 일관된 성능 향상이 달성되어, 프레임워크의 분산 컴퓨팅 인fra에 대한 적응 가능성과 탄력성을 검증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.