QUICK REVIEW

[논문 리뷰] AIBench: An Industry Standard Internet Service AI Benchmark Suite

Wanling Gao, Fei Tang|arXiv (Cornell University)|2019. 08. 13.

IoT and Edge/Fog Computing참고 문헌 58인용 수 31

한 줄 요약

AIBench는 17개의 산업 파트너와 함께 개발된 인터넷 서비스 분야의 AI 워크로드를 위한 최초의 산업 표준 벤치마크 세트이다. 이는 학습 순서 정하기, 객체 검출, 추천과 같은 핵심 AI 문제 영역에서 16개의 구성 요소 벤치마크와 종단 간 전자상거래 검색 애플리케이션 벤치마크를 포함하는 유연하고 확장 가능한 프레임워크를 제공하여, 실제 규모의 데이터와 워크로드에서 마이크로 커널부터 전체 스택 워크로드에 이르기까지 종합적인 성능 분석을 가능하게 한다.

ABSTRACT

Today's Internet Services are undergoing fundamental changes and shifting to an intelligent computing era where AI is widely employed to augment services. In this context, many innovative AI algorithms, systems, and architectures are proposed, and thus the importance of benchmarking and evaluating them rises. However, modern Internet services adopt a microservice-based architecture and consist of various modules. The diversity of these modules and complexity of execution paths, the massive scale and complex hierarchy of datacenter infrastructure, the confidential issues of data sets and workloads pose great challenges to benchmarking. In this paper, we present the first industry-standard Internet service AI benchmark suite---AIBench with seventeen industry partners, including several top Internet service providers. AIBench provides a highly extensible, configurable, and flexible benchmark framework that contains loosely coupled modules. We identify sixteen prominent AI problem domains like learning to rank, each of which forms an AI component benchmark, from three most important Internet service domains: search engine, social network, and e-commerce, which is by far the most comprehensive AI benchmarking effort. On the basis of the AIBench framework, abstracting the real-world data sets and workloads from one of the top e-commerce providers, we design and implement the first end-to-end Internet service AI benchmark, which contains the primary modules in the critical paths of an industry scale application and is scalable to deploy on different cluster scales. The specifications, source code, and performance numbers are publicly available from the benchmark council web site http://www.benchcouncil.org/AIBench/index.html.

연구 동기 및 목표

인터넷 서비스 분야의 산업 규모 AI 워크로드를 위한 공개 가능하고 대표적이며 확장 가능한 벤치마크의 부족을 해소하기 위해.
실제 AI 응용 프로그램 벤치마킹에서의 데이터 기밀성, 시스템 복잡성, 아키텍처 다양성 문제를 극복하기 위해.
세부 구성 요소 벤치마크와 전체 스택 종단 간 응용 프로그램 평가를 모두 지원하는 종합적인 벤치마크 프레임워크를 개발하기 위해.
공개 접근 가능한 사양, 소스 코드 및 성능 데이터를 제공하여 산업 간 및 학술 분야 간 연구를 가능하게 하기 위해.
최상위 전자상거래 제공업체의 실제 워크로드를 모델링하여 학술 연구와 산업 실무 사이의 격차를 메우기 위해.

제안 방법

데이터 입력, AI 문제 영역, 온라인 추론, 오프라인 학습, 배포 등 플러그 가능한 구성 요소를 갖춘 모듈식이며 느슨하게 결합된 벤치마크 프레임워크를 설계하고 구현하기 위해.
실제 검색, 소셜 네트워크, 전자상거래 워크로드에서 유래한 이미지-텍스트 변환, 음성-텍스트 변환, 3D 객체 복원, 학습 순서 정하기 등 16개의 주요 AI 문제 영역을 식별하고 구현하기 위해.
최상위 제공업체의 실제 생산 데이터와 워크로드를 기반으로 한 종단 간 전자상거래 검색 벤치마크를 구성하여 핵심 경로 모듈을 대규모로 복제하기 위해.
성능 분석을 위한 커널 수준 분석이 가능한 구성 요소 벤치마크 전반에 걸쳐 12개의 기본 계산 단위(마이크로벤치마크)를 구현하기 위해.
커널 및 함수 수준에서 메모리 종속성, 실행 종속성, 텍스처 스탠스 등의 세부 스탠딩 프로파일링을 활용하여 GPU 실행 효율성 분 析을 수행하기 위해.
프로파일링 도구를 사용하여 핫스팟 함수와 성능 저하 요인(예: maxwell_scudnn_128x32_stridedB_splitK_interior_nn 컨volution 커널에서 18.5%의 SM 효율성)을 식별하기 위해.

실험 결과

연구 질문

RQ1대규모 인터넷 서비스에서 실제 워크로드를 대표할 수 있는 종합적이고 확장 가능하며 산업에서 검증된 벤치마크 세트를 설계하는 방법은 무엇인가?
RQ2현대 인터넷 서비스의 핵심 계산 특성을 가장 잘 반영하는 대표적인 AI 문제 영역는 무엇인가?
RQ3AI 구성 요소가 종단 간 인터넷 서비스 워크로드의 핵심 경로와 성능 저하 요인에 얼마나 큰 영향을 미치는가?
RQ4다양한 AI 워크로드에서 커널 수준과 함수 수준에서 성능 저하 요인을 어떻게 식별하고 분석할 수 있는가?
RQ5GPU 실행에서 주요 성능 저하(예: 스탠딩)는 무엇이며, 이는 다양한 AI 연산과 하드웨어 커널 간에 어떻게 달라지는가?

주요 결과

학습 순서 정하기 컴포onent은 높은 메모리 종속성 스탠딩(61%)과 최적화가 낮은 커널(maxwell_scudnn_128x32_stridedB_splitK_interior_nn)으로 인해 가장 낮은 SM 효율성(29%)을 보이며, 이 커널은 단지 18.5%의 SM 효율성에 그친다.
요소별 연산에서 메모리 종속성 스탠딩은 총 스탠딩의 최대 68%를 차지하여 데이터 국소성과 액세스 패턴이 주요 성능 저하 요인임을 시사한다.
다수의 커널에서 실행 종속성 스탠딩이 두드러지므로, 더 나은 커널 스케줄링 또는 코드 생성을 통해 명령어 수준의 병렬성을 향상시킬 수 있음을 시사한다.
함수 수준 프로파일링은 컨볼루션에서 maxwell_scudnn_128x32_stridedB_splitK_interior_nn의 경우 61%의 메모리 종속성 스탠딩을 보이고, GEMM에서 maxwell_sgemm_128x64_nn는 단지 18%에 불과하여 최적화 요구 사항이 상이함을 나타낸다.
종단 간 벤치마크는 핵심 경로에서 AI 기반 워크로드 이동을 성공적으로 캡처하여, 고립된 마이크로벤치마크보다 전체 스택 응용 프로그램 벤치마크의 필요성을 입증한다.
벤치마크 세트는 산업 규모 서비스의 실제 데이터 세트, 워크로드, 사용자 로그에 대한 공개 접근이 부족했던 탓에 이전에는 확보되지 못했던 세부적인 성능 통찰을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.