QUICK REVIEW

[논문 리뷰] MLPerf Inference Benchmark

Vijay Janapa Reddi, Christine Cheng|arXiv (Cornell University)|2019. 11. 06.

Radiation Effects in Electronics참고 문헌 47인용 수 40

한 줄 요약

MLPerf Inference는 다양한 하드웨어 및 소프트웨어 스택을 대상으로 기계학습 추론 시스템을 평가하기 위한 표준화되고 산업 전반의 벤치마크 세트를 도입한다. 단일 스트림, 멀티스트림, 서버, 오프라인의 네 가지 현실적인 시나리오를 정의하며, 엄격한 정확도 목표와 지연 시간 한계를 설정하여 14개 기관에서 온 30개 이상의 시스템 간에 공정하고 재현 가능하며 아키텍처에 영향을 받지 않는 성능 비교를 가능하게 한다.

ABSTRACT

Machine-learning (ML) hardware and software system demand is burgeoning. Driven by ML applications, the number of different ML inference systems has exploded. Over 100 organizations are building ML inference chips, and the systems that incorporate existing models span at least three orders of magnitude in power consumption and five orders of magnitude in performance; they range from embedded devices to data-center solutions. Fueling the hardware are a dozen or more software frameworks and libraries. The myriad combinations of ML hardware and ML software make assessing ML-system performance in an architecture-neutral, representative, and reproducible manner challenging. There is a clear need for industry-wide standard ML benchmarking and evaluation criteria. MLPerf Inference answers that call. In this paper, we present our benchmarking method for evaluating ML inference systems. Driven by more than 30 organizations as well as more than 200 ML engineers and practitioners, MLPerf prescribes a set of rules and best practices to ensure comparability across systems with wildly differing architectures. The first call for submissions garnered more than 600 reproducible inference-performance measurements from 14 organizations, representing over 30 systems that showcase a wide range of capabilities. The submissions attest to the benchmark's flexibility and adaptability.

연구 동기 및 목표

기계학습 추론 시스템을 평가하기 위한 표준화되고 대표적이며 재현 가능한 벤치마크의 부재를 해결하기 위해.
다양한 기계학습 하드웨어 및 소프트웨어 스택 간에 공정하고 직접 비교 가능한 성능 평가를 가능하게 하기 위해.
실제 운영 환경의 제약 조건에 부합하는 성능 메트릭, 정확도 목표, 지연 시간 한계에 대한 공감대를 형성하기 위해.
정의된 규칙 하에 다양한 구현 방식을 허용함으로써 하드웨어 및 소프트웨어 최적화를 지원하기 위해.
커뮤니티 주도의 벤치마킹 프레임워크를 통해 산업 전반의 협업을 촉진하기 위해.

제안 방법

단일 스트림, 멀티스트림, 서버, 오프라인의 네 가지 서로 다른 추론 시나리오를 정의하며, 각 시나리오에 맞는 성능 메트릭을 설정한다.
200명 이상의 기계학습 엔지니어 및 전문가의 의견을 바탕으로 의무적인 모델 품질 목표와 지연 시간 한계를 설정한다.
실제 워크로드를 시뮬레이션하고 일관된 데이터 입력/출력 처리를 보장하기 위해 표준화된 LoadGen 도구를 사용한다.
클로즈드 및 오픈 두 가지 부문을 지원: 클로즈드는 엄격한 규칙 준수를 요구하고, 오픈은 더 넓은 소프트웨어 및 하드웨어 유연성을 허용한다.
재현 가능성과 접근성을 보장하기 위해 PyTorch 및 TensorFlow 기반의 참조 구현을 제공한다.
정확도, 준수 여부, 감사 가능성 확보를 위해 자동화된 체크 및 제출 검증 도구를 활용한다.

실험 결과

연구 질문

RQ1다양한 하드웨어 및 소프트웨어 시스템 간에 기계학습 추론 성능을 어떻게 공정하게 측정할 수 있는가?
RQ2데이터 센터, 엣지 장치, 모바일 시스템에서 실질적인 운영 환경 제약 조건을 가장 잘 반영하는 성능 메트릭은 무엇인가?
RQ3성능와 품질 간의 의미 있는 트레이드오프 분석을 가능하게 하기 위해 모델 정확도를 어떻게 표준화할 수 있는가?
RQ4다양한 제출물 간의 재현 가능성과 무결성을 보장하기 위해 어떤 벤치마킹 규칙과 워크플로우가 필요한가?
RQ5공동의 합의 기반 벤치마킹 프레임워크는 어떻게 기계학습 추론 워크로드의 전반적인 스펙트럼을 효과적으로 반영할 수 있는가?

주요 결과

첫 번째 MLPerf Inference 제출 라운드에서 14개 기관에서 온 30개 이상의 시스템을 대상으로 600건 이상의 재현 가능한 성능 측정치를 확보했다.
정의된 네 가지 시나리오 간 성능 격차가 뚜렷하게 나타나, 시나리오별 벤치마킹의 중요성을 입증했다.
정확도 목표와 지연 시간 한계의 통합으로 다양한 시스템 간 정확도/성능 트레이드오프의 일관된 평가가 가능했다.
LoadGen 도구와 자동화된 체크 도구 덕분에 수동 감사 작업이 크게 감소했으며, 결과의 무결성이 향상되어 약 3명의 엔지니어로도 제출물 검증이 가능했다.
벤치마크는 배치 처리, 모델 양자화, 하드웨어-소프트웨어 공동 설계 등의 최적화를 다양한 플랫폼에서 효과적으로 포착했다.
30개 이상의 기관과 200명 이상의 전문가가 참여한 커뮤니티 주도 개발 과정 덕분에 광범위한 관련성과 실질적인 적용 가능성이 확보되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.