[논문 리뷰] DeepRecSys: A System for Optimizing End-To-End At-scale Neural Recommendation Inference
이 논문은 대규모 신경 추천 추론을 위한 엔드 투 엔드 인프라인 DeepRecInfra와 요청-당 배치 크기 및 GPU 오프로딩을 최적화하여 처리량을 극대화하고 꼬리-지연 목표를 달성하는 hill-climbing 스케줄러인 DeepRecSched를 제시한다.
Neural personalized recommendation is the corner-stone of a wide collection of cloud services and products, constituting significant compute demand of the cloud infrastructure. Thus, improving the execution efficiency of neural recommendation directly translates into infrastructure capacity saving. In this paper, we devise a novel end-to-end modeling infrastructure, DeepRecInfra, that adopts an algorithm and system co-design methodology to custom-design systems for recommendation use cases. Leveraging the insights from the recommendation characterization, a new dynamic scheduler, DeepRecSched, is proposed to maximize latency-bounded throughput by taking into account characteristics of inference query size and arrival patterns, recommendation model architectures, and underlying hardware systems. By doing so, system throughput is doubled across the eight industry-representative recommendation models. Finally, design, deployment, and evaluation in at-scale production datacenter shows over 30% latency reduction across a wide variety of recommendation models running on hundreds of machines.
연구 동기 및 목표
- 대규모 데이터 센터에서의 대규모 신경 추천 추론 최적화의 필요성에 대한 동기를 제시한다.
- 업계를 대표하는 모델, 워크로드, 꼬리-지연 목표를 반영한 엔드투엔드 인프라스트럭처(DeepRecInfra)를 제안한다.
- 하드웨어 가속기와의 협업 설계를 위한 요청- 및 배치 수준 병렬성을 함께 다루는 동적 스케줄러(DeepRecSched)를 개발한다.
- 생산 규모 설정에서 여러 모델 및 하드웨어 구성에 대한 처리량 증가 및 지연 감소를 시연한다.
제안 방법
- 모델 수준 이질성과 병목 현상을 포착하기 위해 여덟 가지 최첨단 추천 모델을 특성화한다.
- 생산 데이터센터의 산업 워크로드, 포아송 분포의 쿼리 도착 패턴, 쿼리 크기 분포를 모델링하기 위해 DeepRecInfra를 개발한다.
- 각 요청의 배치 크기와 GPU-오프로드 임계값을 최적화하여 꼬리-지연 목표 하에서 QPS를 최대화하는 hill-climbing 스케줄러인 DeepRecSched를 도입한다.
- Broadwell 및 Skylake CPU에서 DeepRecInfra를 통해 CPU와 GPU(GTX-1080Ti)에서의 DeepRecSched를 평가하고, 정적 베이스라인과 비교한다.
- 하드웨어 이질성(CPU SIMD 너비, 캐시 계층 구조)이 요청- 대 배치 수준 병렬성의 최적 균형에 어떤 영향을 미치는지 분석한다.
- DeepRecSched가 기반선 대비 상당한 처리량 증가와 전력 효율 개선을 달성함을 입증한다.
실험 결과
연구 질문
- RQ1대규모 추천 추론이 모델 아키텍처, 메모리 접근, 입력 특징 측면에서 다른 DNN 워크로드와 어떻게 다른가?
- RQ2엔드투엔드 인프라스트럭처(DeepRecInfra)가 대규모 추론을 위한 실제 생산 추천 워크로드를 충실하게 모델링할 수 있는가?
- RQ3hill-climbing 기반 스케줄러(DeepRecSched)가 다양한 모델과 하드웨어에서 배치 크기와 가속기 오프로딩을 조정하여 꼬리-지연 제약 하의 처리량을 최대화할 수 있는가?
- RQ4현실적인 쿼리 분포 하에서 GPU와 CPU+GPU 하이브리드를 사용하는 것이 대규모 추천 추론의 처리량 및 에너지 효율성에 어떤 이점을 주는가?
- RQ5하드웨어 이질성이 요청- 병렬성과 배치 수준 병렬성 간 최적 배치를 어떻게 좌우하는가?
주요 결과
- DeepRecInfra는 여덟 가지 산업 대표 모델, 현실적인 꼬리-지연 목표, 생산과 유사한 쿼리 패턴을 모델링할 수 있게 한다.
- DeepRecSched는 엄격한 지연 목표 하에서 시스템 처리량을 두 배로 늘리고 여덟 가지 모델 모두에서 정적 스케줄러를 능가한다.
- CPU 대 GPU 평가에서 DeepRecSched-CPU는 1.7–2.7x의 처리량 증가를, DeepRecSched-GPU는 지연 목표 및 모델에 따라 4.0–5.8x의 증가를 보인다.
- GPU 가속은 더 큰 쿼리에 가장 큰 이점을 주며, 최적의 GPU-오프로드 임계값은 모델과 꼬리 지연 목표에 따라 달라진다.
- 오프로딩은 처리량을 향상시키지만 데이터 전송 오버헤드가 있으며, 최적 임계값은 가속 효과와 전송 비용의 균형을 이룬다.
- 최적의 배치 크기와 오프로드 임계값은 모델 아키텍처, 꼬리-지연 목표 및 하드웨어 플랫폼에 따라 달라진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.