[논문 리뷰] Characterization of Large Language Model Development in the Datacenter
이 논문은 GPU 데이터센터에서 LLM 개발의 6개월 작업 부하 추적 연구를 제시하고, LLM 작업 부하가 기존 DL 작업 부하와 어떻게 다른지 분석하며, 견고성과 효율성을 개선하기 위한 장애 허용 사전 학습 및 분리된 평가 스케줄링을 제안합니다.
Large Language Models (LLMs) have presented impressive performance across several transformative tasks. However, it is non-trivial to efficiently utilize large-scale cluster resources to develop LLMs, often riddled with numerous challenges such as frequent hardware failures, intricate parallelization strategies, and imbalanced resource utilization. In this paper, we present an in-depth characterization study of a six-month LLM development workload trace collected from our GPU datacenter Acme. Specifically, we investigate discrepancies between LLMs and prior task-specific Deep Learning (DL) workloads, explore resource utilization patterns, and identify the impact of various job failures. Our analysis summarizes hurdles we encountered and uncovers potential opportunities to optimize systems tailored for LLMs. Furthermore, we introduce our system efforts: (1) fault-tolerant pretraining, which enhances fault tolerance through LLM-involved failure diagnosis and automatic recovery. (2) decoupled scheduling for evaluation, which achieves timely performance feedback via trial decomposition and scheduling optimization.
연구 동기 및 목표
- 진짜 데이터센터에서 LLM 개발 워크로드를 특성화하고 이를 이전 DL 워크로드와 비교한다.
- LLM 학습 및 평가 파이프라인의 비효율성 및 실패에 기여하는 요인을 식별한다.
- LLM 개발 중 장애 허용성 및 피드백 지연 을 개선하기 위한 시스템 솔루션을 제안한다.
제안 방법
- Acme의 두 LLM 클러스터(Seren 및 Kalos)에서 6개월간의 워크로드 추적 데이터를 수집하고 분석한다(스케줄러 로그, 인프라 모니터링, 실패 로그, 프로파일링 데이터 포함).
- 작업을 LLM 개발 단계(데이터 준비, 사전 학습, 정렬, 평가, 배포) 및 워크로드 유형(사전 학습, 평가, SFT, MLLM 등)으로 분류한다.
- 자원 활용 패턴, 작업 지속 시간, 큐 대기 시간 및 실패 모드를 측정하고 이전 DL 추적과 비교한다.
- CPU 메모리 및 네트워크를 비롯한 인프라 사용을 평가하고, DCGM 카운터 및 IPMI 전력 데이터를 포함한 세밀한 지표를 사용한다.
- 비동기 체크포인팅 및 자동 실패 진단/복구를 통한 장애 허용 사전 학습을 개발한다.
- 평가를 위한 분리된 스케줄링을 개발하여 모델 품질 피드백을 시기적절하게 제공하고 GPU의 유휴 시간을 줄인다.
실험 결과
연구 질문
- RQ1LLM 개발 워크로드가 기간, 큐 대기 지연 및 자원 사용 측면에서 기존의 작업 지향 DL 워크로드와 어떻게 다른가?
- RQ2LLM 중심 데이터센터 워크로드에서 비효율성, 저활용 및 실패의 주요 요인은 무엇인가?
- RQ3시스템 설계 변경이 사전 학습 중 장애 허용성을 개선하고 LLM의 평가 피드백 속도를 높일 수 있는가?
주요 결과
- LLM 워크로드는 이전 DL 워크로드보다 GPU 작업 지속 시간이 훨씬 짧은 것으로 나타나며(중앙값 2분), 더 새로운 추적은 지속 시간이 더 짧아짐.
- 평가 작업이 작업 수를 지배하지만 GPU 자원의 비중은 작고, 반면 사전 학습이 GPU 시간의 대부분을 차지한다(Kal0s: 94.0%).
- GPU 활용도가 크게 극단화되어(종종 0% 또는 100% 근처) 높은 메모리 사용과 함께 GPU 공유 스케줄러의 한계를 시사한다.
- CPU 메모리와 네트워크는 자주 저활용되며, GPU가 주된 자원이다; 이는 관련 자원의 저활용 및 스케줄링/배치 최적화 가능성을 시사한다.
- 평가 오버헤드는 상당한 모델 로딩, 데이터 전처리 및 메트릭 계산 시간을 포함하여 GPU 유휴 기간을 초래하며, 캐싱 및 작업 통합으로 완화될 수 있다.
- 작업 시작 시 잦은 인프라 실패와 긴 기동/복구 시간이 학습 효율성을 저해하므로 장애 허용 사전 학습과 분리된 평가 스케줄링이 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.