[논문 리뷰] AIBench: An Industry Standard AI Benchmark Suite from Internet Services.
AIBench는 실제 웹 서비스 워크로드에서 유래한 종합적이고 산업 표준인 AI 벤치마크 세트로, 다양성과 대표성을 보장하기 위해 17개의 대표적 AI 작업을 포함한다. 정교하게 선택된 부분 집합을 통해 벤치마크 비용을 41% 절감하면서도 핵심 워크로드 특성을 유지하며, 모델 복잡성, 계산 패턴, 핫스팟 분석 면에서 MLPerf를 능가한다.
The booming successes of machine learning in different domains boost industry-scale deployments of innovative AI algorithms, systems, and architectures, and thus the importance of benchmarking grows. However, the confidential nature of the workloads, the paramount importance of the representativeness and diversity of benchmarks, and the prohibitive cost of training a state-of-the-art model mutually aggravate the AI benchmarking challenges. In this paper, we present a balanced AI benchmarking methodology for meeting the subtly different requirements of different stages in developing a new system/architecture and ranking/purchasing commercial off-the-shelf ones. Performing an exhaustive survey on the most important AI domain-Internet services with seventeen industry partners, we identify and include seventeen representative AI tasks to guarantee the representativeness and diversity of the benchmarks. Meanwhile, for reducing the benchmarking cost, we select a benchmark subset to a minimum-three tasks-according to the criteria: diversity of model complexity, computational cost, and convergence rate, repeatability, and having widely-accepted metrics or not. We contribute by far the most comprehensive AI benchmark suite-AIBench. The evaluations show AIBench outperforms MLPerf in terms of the diversity and representativeness of model complexity, computational cost, convergent rate, computation and memory access patterns, and hotspot functions. With respect to the AIBench full benchmarks, its subset shortens the benchmarking cost by 41%, while maintaining the primary workload characteristics. The specifications, source code, and performance numbers are publicly available from the web site this http URL.
연구 동기 및 목표
- 산업 규모의 AI 시스템 개발에서 대표성 있고 다양한 AI 벤치마크의 증가하는 필요를 해결한다.
- 기밀 워크로드, 높은 학습 비용, 그리고 반복 가능성의 필요성으로 인해 발생하는 과제를 극복한다.
- 시스템 개발과 상용 시스템 순위 매기기 모두를 지원하는 벤치마크 세트를 개발한다.
- 모델 복잡성, 계산 비용, 수렴 속도, 메모리 액세스 패턴을 광범위하게 커버한다.
- 주요 워크로드 특성의 충실도를 훼손하지 않으면서 벤치마크 비용을 최소화한다.
제안 방법
- 17개의 산업 파artner를 대상으로 포괄적인 설문 조사를 수행하여 웹 서비스에서 유래한 17개의 대표적 AI 작업을 식별했다.
- 모델 복잡성, 계산 비용, 수렴 속도, 반복 가능성 면에서 다양성을 확보하기 위해 최소 3개의 작업으로 구성된 최소 부분 집합을 선정했다.
- 일관성과 비교 가능성 보장을 위해 널리 수용된 메트릭을 우선시했다.
- 핵심 계산 및 메모리 액세스 패턴, 특히 핫스팟 함수를 포착할 수 있도록 벤치마크 세트를 설계했다.
- 공개 웹사이트를 통해 사양, 소스 코드, 성능 데이터의 공개를 확보했다.
- 대표성과 워크로드 특성의 다양성 면에서 MLPerf에 비해 AIBench의 우월성을 입증하기 위해 AIBench를 MLPerf와 비교 평가했다.
실험 결과
연구 질문
- RQ1실제 웹 서비스 워크로드의 진정한 다양성과 복잡성을 반영할 수 있는 AI 벤치마크 세트는 어떻게 설계할 수 있는가?
- RQ2비용 절감을 위해 최소한의 부분 집합을 구성하면서도 충실도를 훼손하지 않으면서 대표성을 유지할 수 있는 기준은 무엇인가?
- RQ3AIBench는 기존의 벤치마크인 MLPerf에 비해 모델 복잡성과 계산 패턴을 얼마나 잘 포착하는가?
- RQ4벤치마크 부분 집합은 전체 벤치마크 세트의 주요 특성을 얼마나 잘 유지하는가?
- RQ5넓게 수용된 메트릭은 대규모 AI 벤치마크에서 반복 가능성과 비교 가능성 확보에 어떤 역할을 하는가?
주요 결과
- AIBench는 실제 웹 서비스 워크로드에서 유래한 17개의 대표적 AI 작업을 포함하여 높은 대표성과 다양성을 확보한다.
- 벤치마크 부분 집합은 전체 AIBench 세트 대비 총 벤치마크 비용을 41% 절감한다.
- 부분 집합은 모델 복잡성, 계산 비용, 수렴 속도와 같은 주요 워크로드 특성을 유지한다.
- AIBench는 모델 복잡성, 계산 비용, 메모리 액세스 패턴의 다양성을 포착하는 데서 MLPerf를 능가한다.
- AIBench는 시스템 평가에 핵심적인 핫스팟 함수와 계산 패턴을 더 잘 커버한다.
- 사양, 소스 코드, 성능 수치가 모두 공개되어 재현성과 커뮤니티 활용을 보장한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.