[논문 리뷰] MLPerf Training Benchmark
MLPerf Training Benchmark 은 여러 라운드와 워크로드에 걸쳐 정확도, 확률적 특성, 소프트웨어 다양성을 고려하면서 시스템 성능을 공정하게 평가하기 위한 포괄적이고 엔드투엔드 ML 교육 벤치마크를 제시합니다.
Machine learning (ML) needs industry-standard performance benchmarks to support design and competitive evaluation of the many emerging software and hardware solutions for ML. But ML training presents three unique benchmarking challenges absent from other domains: optimizations that improve training throughput can increase the time to solution, training is stochastic and time to solution exhibits high variance, and software and hardware systems are so diverse that fair benchmarking with the same binary, code, and even hyperparameters is difficult. We therefore present MLPerf, an ML benchmark that overcomes these challenges. Our analysis quantitatively evaluates MLPerf's efficacy at driving performance and scalability improvements across two rounds of results from multiple vendors.
연구 동기 및 목표
- 대표적인 엔드투엔드 ML 교육 벤치마크 스위트를 다양한 워크로드, 모델, 옵티마이저를 포괄하도록 정의한다.
- 공정한 비교를 가능하게 하기 위해 참조 구현 및 동등한 하이퍼파라미터를 확립한다.
- 확률적 특성의 영향을 최소화하면서 엄격함을 유지하기 위한 타이밍 규칙 및 품질 목표를 도입한다.
- 제출 코드 및 교육 로그를 공개 가능하게 하여 재현성을 촉진한다.
- 사업적 및 연구 커뮤니티 간의 협력을 가능하게 하는 워킹그룹의 거버넌스 구조를 도입한다.
제안 방법
- 시각, 언어, 추천, 강화학습에 걸친 일곱 작업 벤치마크 스위트를 큐레이션한다.
- 주요 성능 지표로 타임 투 트레인(time-to-train)을 사용하여 속도와 정확도를 함께 포착한다.
- 각 벤치마크에 대해 현저한 수준의 품질 임계치를 명시하고 참조 구현(PyTorch 또는 TensorFlow)을 제공한다.
- 초기화 및 데이터 재포맷과 같은 대표적이지 않은 오버헤드를 제외하는 타이밍 규칙을 정의하고 모델 생성 허용 시간을 20분으로 설정한다.
- 결과를 안정화하기 위해 벤치마크당 다수의 실행이 필요하며, 가장 빠른 실행과 가장 느린 실행을 제외한 평균값을 보고한다.
- 시스템 최적화와 공정한 규모 간의 균형을 맞추기 위해 제어된 제약 하에 조정 가능한 하이퍼파라미터를 제공한다.
실험 결과
연구 질문
- RQ1엔드 투 엔드 ML 교육에서 다양한 하드웨어 및 소프트웨어 스택을 공정하게 비교할 수 있는 ML 벤치마크는 어떻게 구성될 수 있는가?
- RQ2실제 ML 교육을 반영하면서도 시스템 간 공정한 비교를 가능하게 하는 워크로드와 모델 유형은 무엇인가?
- RQ3최적화가 서로 다른 스케일과 정밀도에서 모델 품질, 교육 시간, 수렴에 어떤 영향을 미치는가?
- RQ4재현성과 공정한 참여를 보장하기 위한 규칙 및 거버넌스는 어떤 것이 가장 바람직한가?
주요 결과
- MLPerf 은 ML 교육의 처리량, 정확도 및 확률적 특성을 다루기 위해 워크로드의 폭과 엔드투엔드 타이밍 및 품질 목표를 결합한다.
- 벤치마크는 시스템 간 공정한 비교를 보장하기 위해 참조 구현 및 동등한 하이퍼파라미터를 강제한다.
- MLPerf 는 설정 오버헤드를 제외하고 산업 규모의 교육을 반영하기 위해 모델 생성 시간을 제한적으로 허용하는 타이밍 규칙을 사용한다.
- 결과의 일관성을 높이기 위해 벤치마크당 다수의 실행을 사용하고, 작업별로 특정 실행 횟수 요건을 적용한다.
- 두 차례(v0.5 및 v0.6) 는 공급업체 간의 진행 상황을 평가하며 벤치마킹 커버리지와 참여가 진화하고 있음을 보여준다.
- 제출물은 규정 준수 여부를 검토받고 오픈/클로즈드(Open/Closed)와 시스템 카테고리(Available/Preview/Research)로 보고되어 공정성과 포용성을 촉진한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.