QUICK REVIEW

[논문 리뷰] BigDataBench: A Scalable and Unified Big Data and AI Benchmark Suite

Wanling Gao, Jianfeng Zhan|arXiv (Cornell University)|2018. 02. 23.

Parallel Computing and Optimization Techniques참고 문헌 66인용 수 28

한 줄 요약

이 논문은 다양한 워크로드에서 공통적인 계산 패턴을 반영하는 여덟 가지 기본 데이터 모티프를 기반으로 한 확장성 있고 통합된 대용량 데이터 및 AI 벤치마크 세트인 BigDataBench 4.0을 제안한다. 워크로드를 이러한 모티프의 조합으로 모델링함으로써, 시스템 및 하드웨어 성능에 대해 효율적이고 대표적인 평가가 가능해지며, CPU 및 GPU 마이크로아키텍처 특성 분석을 통해 메모리 액세스 패턴—특히 ResNet 및 Word2Vec와 같은 모델에서의 데이터 이동—이 고정된 스탤과 낮은 명령 수준 병행성으로 인해 GPU 효율성에 크게 영향을 준다는 것이 밝혀졌다.

ABSTRACT

Several fundamental changes in technology indicate domain-specific hardware and software co-design is the only path left. In this context, architecture, system, data management, and machine learning communities pay greater attention to innovative big data and AI algorithms, architecture, and systems. Unfortunately, complexity, diversity, frequently-changed workloads, and rapid evolution of big data and AI systems raise great challenges. First, the traditional benchmarking methodology that creates a new benchmark or proxy for every possible workload is not scalable, or even impossible for Big Data and AI benchmarking. Second, it is prohibitively expensive to tailor the architecture to characteristics of one or more application or even a domain of applications. We consider each big data and AI workload as a pipeline of one or more classes of units of computation performed on different initial or intermediate data inputs, each class of which we call a data motif. On the basis of our previous work that identifies eight data motifs taking up most of the run time of a wide variety of big data and AI workloads, we propose a scalable benchmarking methodology that uses the combination of one or more data motifs---to represent diversity of big data and AI workloads. Following this methodology, we present a unified big data and AI benchmark suite---BigDataBench 4.0, publicly available from~\url{http://prof.ict.ac.cn/BigDataBench}. This unified benchmark suite sheds new light on domain-specific hardware and software co-design: tailoring the system and architecture to characteristics of the unified eight data motifs other than one or more application case by case. Also, for the first time, we comprehensively characterize the CPU pipeline efficiency using the benchmarks of seven workload types in BigDataBench 4.0.

연구 동기 및 목표

워크로드 다양성과 급속한 진화로 인한 대용량 데이터 및 AI 벤치마킹의 확장성과 대표성 문제를 해결하기 위해.
각 워크로드마다 맞춤형 벤치마크가 필요로 하는 전통적 벤치마킹 방법의 한계를 극복하여, 유지보수에 비용이 많이 들고 비현실적인 문제를 해결하기 위해.
개별 응용 프로그램이 아닌, 재사용 가능한 계산 단위인 데이터 모티프의 소수 집합으로 워크로드를 추상화함으로써 도메인 특화 하드웨어 및 소프트웨어 공동 설계를 가능하게 하기 위해.
다양한 대용량 데이터 및 AI 워크로드에서 마이크로, 구성 요소, 종단 간 시스템 평가를 지원하는 포괄적이고 오픈소스의 벤치마크 세트를 제공하기 위해.
일곱 가지 워크로드 유형을 대상으로 하향식 히에라르키컬 방법론을 사용해 CPU 및 GPU 시스템의 세밀한 마이크로아키텍처 성능 분 析를 가능하게 하기 위해.

제안 방법

실제 대용량 데이터 및 AI 워크로드에서 대부분의 런타임을 차지하는 핵심 계산 패턴을 반영하는 여덟 가지 기본 데이터 모티프—예를 들어 GEMM, 컨볼루션, 기울기 계산, 데이터 이동—을 정의한다.
온라인 서비스, 오프라인 분석, 그래프 분석, AI, 데이터 웨어하우스, NoSQL, 스트리밍의 일곱 유형에 걸쳐 이러한 데이터 모티프 중 하나 이상를 조합하여 대표 워크로드를 구성함으로써 BigDataBench 4.0을 통합된 벤치마크 세트로 구축한다.
실제 세계의 13개 데이터 세트와 6개의 확장 가능한 데이터 세트를 통합하여 다양한 시스템 규모에서의 현실성과 재현 가능성을 확보한다.
BigDataBench 4.0를 사용하여 CPU에서 계층적 하향식 성능 분 析 방법론을 적용하여 다섯 단계의 파이프라인 효율성을 평가하며, SPECCPU 및 PARSEC와 같은 전통적 벤치마크와 함께 사용한다.
IPC(사이클당 명령 수) 및 SM(스트리밍 멀티프로세서) 효율성 등의 메트릭을 사용해 GPU 성능을 평가하고, 메모리 및 계산 병목 현상을 분석하기 위해 커널 수준의 프로파일링을 수행한다.
50개의 마이크로아키텍처 메트릭에 대해 주성분 분석(PCA)과 계층적 클러스터링을 적용하여 반복 횟수의 영향을 평가하고, 성능 특성 분석에 충분한 소수의 반복(예: 1~10 에포크)으로도 충분히 유의미한 결과를 도출할 수 있음을 보여준다.

실험 결과

연구 질문

RQ1소수의 계산 모티프로 구성된 통합 벤치마크 세트가 실제 대용량 데이터 및 AI 워크로드의 다양성과 복잡성을 효과적으로 대표할 수 있는가?
RQ2데이터 모티프를 통해 응용 프로그램 특화 벤치마크의 필요성을 얼마나 줄일 수 있으며, 대표성과 확장성은 유지되는가?
RQ3ResNet 및 Word2Vec와 같은 딥러닝 모델에서의 메모리 액세스 패턴은 GPU 성능에 어떤 영향을 미치며, 그 배경에 있는 아키텍처적 병목 요인은 무엇인가?
RQ4AI 벤치마크에서 소수의 반복(예: 1~10 에포크)이 과도한 런타임 없이도 신뢰할 수 있는 마이크로아키텍처 통찰을 제공할 수 있는가?
RQ5BigDataBench 4.0는 CPU 파이프라인 효율성과 GPU 활용도를 분석하는 데 있어 전통적 벤치마크와 비교해 어떤 성능을 보이는가?

주요 결과

BigDataBench 4.0는 오직 여덟 가지 핵심 데이터 모티프만을 사용하여 일곱 가지 워크로드 유형에 걸쳐 47개의 다양한 워크로드의 성능 특성을 성공적으로 포괄하여 확장성 있고 대표적인 벤치마킹을 가능하게 하였다.
ResNet, Inception, Word2Vec 등의 AI 벤치마크는 GEMM 및 컨볼루션 커널을 주로 사용하는 AlexNet 및 VGG16 모델에 비해 명령당 지연 시간(IPC)과 SM 효율성이 각각 30~50% 낮게 나타나, 높은 메모리 액세스 오버헤드와 빈번한 데이터 로드/스토어 연산이 원인임을 확인하였다.
AI 커널의 런타임 분석 결과, ResNet 및 Inception은 데이터 이동 커널(예: assign_moving_avg)에 40% 이상의 시간을 소비하는 반면, AlexNet 및 GoogLeNet은 GEMM 및 컨볼루션 커널에 대부분의 시간을 할애한다.
배치 정규화(Batch Normalization)를 사용하는 모델들(예: ResNet)은 로컬 반응 정규화를 사용하는 모델들(예: AlexNet)보다 훨씬 더 많은 데이터 이동을 유발하여, 더 높은 스탤과 낮은 명령 수준 병행성을 초래한다.
하향식 분석 결과, CPU 파이프라인 효율성은 워크로드에 따라 크게 달라지며, 일부 AI 및 그래프 워크로드는 메모리 스탤과 분지 잘못 예측로 인해 50% 미만의 활용도를 보였다.
클러스터링 분석 결과, AI 벤치마크에서 소수의 반복(예: 1~10 에포크)만으로도 전체 학습 런과 유사한 마이크로아키텍처 행동을 보였으며, 이는 짧은 반복 수준에서의 평가로도 아키텍처 평가가 충분히 가능함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.