QUICK REVIEW

[論文レビュー] BigDataBench: A Scalable and Unified Big Data and AI Benchmark Suite

Wanling Gao, Jianfeng Zhan|arXiv (Cornell University)|Feb 23, 2018

Parallel Computing and Optimization Techniques参考文献 66被引用数 28

ひとこと要約

本稿では、多様なワークロードに共通する8つの基本的データモチーフに基づき、スケーラブルで統合的なビッグデータおよびAIベンチマークスイートであるBigDataBench 4.0を提案する。ワークロードをこれらのモチーフの組み合わせとしてモデル化することで、システムおよびハードウェアの性能を効率的かつ代表的に評価可能となり、CPUおよびGPUのマイクロアーキテクチャ的特徴を包括的に評価した結果、ResNet や Word2Vec などのモデルにおけるデータ移動が、高いスターブと低い命令レベル並列性を引き起こすため、GPUの効率性が顕著に制限されていることが判明した。

ABSTRACT

Several fundamental changes in technology indicate domain-specific hardware and software co-design is the only path left. In this context, architecture, system, data management, and machine learning communities pay greater attention to innovative big data and AI algorithms, architecture, and systems. Unfortunately, complexity, diversity, frequently-changed workloads, and rapid evolution of big data and AI systems raise great challenges. First, the traditional benchmarking methodology that creates a new benchmark or proxy for every possible workload is not scalable, or even impossible for Big Data and AI benchmarking. Second, it is prohibitively expensive to tailor the architecture to characteristics of one or more application or even a domain of applications. We consider each big data and AI workload as a pipeline of one or more classes of units of computation performed on different initial or intermediate data inputs, each class of which we call a data motif. On the basis of our previous work that identifies eight data motifs taking up most of the run time of a wide variety of big data and AI workloads, we propose a scalable benchmarking methodology that uses the combination of one or more data motifs---to represent diversity of big data and AI workloads. Following this methodology, we present a unified big data and AI benchmark suite---BigDataBench 4.0, publicly available from~\url{http://prof.ict.ac.cn/BigDataBench}. This unified benchmark suite sheds new light on domain-specific hardware and software co-design: tailoring the system and architecture to characteristics of the unified eight data motifs other than one or more application case by case. Also, for the first time, we comprehensively characterize the CPU pipeline efficiency using the benchmarks of seven workload types in BigDataBench 4.0.

研究の動機と目的

ワークロードの多様性と急速な進化に起因するスケーラビリティと代表性の課題を解決する。
各ワークロードごとにカスタムベンチマークを必要とする従来のベンチマーキング手法の限界を克服し、保守が困難でコストがかかるものである。
個々のアプリケーションではなく、再利用可能な計算ユニット（データモチーフ）の少数にワークロードを抽象化することで、分野特化型のハードウェア・ソフトウェア共同設計を可能にする。
ビッグデータおよびAIワークロードの多様なスケールで、マイクロ、コンponent、エンドツーエンドのシステム評価を可能にする包括的でオープンソースのベンチマークスイートを提供する。
CPUおよびGPUシステムの詳細なマイクロアーキテクチャ的性能分析を、7つのワークロードタイプにわたる階層的Top-Down手法を用いて実現する。

提案手法

GEMM、畳み込み、勾配計算、データ移動など、実世界のビッグデータおよびAIワークロードの実行時間の大部分を占める8つの基本的データモチーフを定義する。
オンラインサービス、オフライン分析、グラフ分析、AI、データウェアハウス、NoSQL、ストリーミングの7つのタイプにわたり、これらのデータモチーフの1つ以上の組み合わせを用いて代表的ワークロードを構築することで、BigDataBench 4.0を統合的ベンチマークスイートとして構築する。
実世界の13のデータセットと6つのスケーラブルなデータセットを統合し、異なるシステムスケールでの現実性と再現可能性を確保する。
CPUにおけるパイプライン効率の評価のため、BigDataBench 4.0をSPECCPUやPARSECといった従来ベンチマークと併用して、5段階の階層的Top-Down性能分析手法を適用する。
IPC（サイクルあたり命令数）やSM（ストリーミングマルチプロセッサ）効率といった指標を用いてGPU性能を評価し、詳細なカーネルレベルのプロファイリングによりメモリおよび計算ボトルネックを分析する。
50個のマイクロアーキテクチャ的メトリクスに主成分分析（PCA）と階層的クラスタリングを適用し、イテレーション回数がアーキテクチャ動作に与える影響を評価。その結果、性能特徴の特定には少数のイテレーションで十分であることが示された。

実験結果

リサーチクエスチョン

RQ1少数の計算モチーフに基づく統合的ベンチマークスイートが、実世界のビッグデータおよびAIワークロードの多様性と複雑さを効果的に代表できるか？
RQ2データモチーフを用いることで、アプリケーション特化型ベンチマーキングの必要性をどれほど低減できるか、かつ代表性和スケーラビリティを維持できるか？
RQ3ResNet や Word2Vec などのディープラーニングモデルにおけるメモリアクセスパターンがGPU性能に与える影響は何か。その背後にあるアーキテクチャ的ボトルネックは何か？
RQ4AIベンチマークにおける少数のイテレーション（例：1～10エポック）が、長時間の実行を要せずとも信頼性の高いマイクロアーキテクチャ的インサイトを提供できるか？
RQ5BigDataBench 4.0は、CPUパイプライン効率とGPU利用率の特徴を把握するうえで、従来ベンチマークと比較してどの程度優れているか？

主な発見

BigDataBench 4.0は、8つのコアデータモチーフのみを用いて、7つのワークロードタイプにまたがる47の多様なワークロードの性能特性を的確に捉えており、スケーラブルかつ代表的なベンチマーキングを実現している。
ResNet や Inception、Word2Vec などのAIベンチマークは、AlexNet や VGG16 よりも顕著に低いIPCおよびSM効率（最大30–50％低下）を示しており、これは高いメモリアクセスオーバーヘッドと頻繁なデータロード/ストア操作に起因する。
AIカーネルの実行時間分解析から、ResNet や Inception は40％以上をデータ移動カーネル（例：assign_moving_avg）に費やしている一方で、AlexNet や GoogLeNet はGEMMおよび畳み込みカーネルに大部分の時間を費やしている。
バッチ正規化を用いるモデル（例：ResNet）は、局所的応答正規化を用いるモデル（例：AlexNet）よりも顕著に多くのデータ移動を伴い、その結果、スターブが増加し、命令レベル並列性が低下する。
Top-Down分析から、CPUパイプライン効率はワークロードによって大きく変動し、一部のAIおよびグラフワークロードでは、メモリスターブおよび分岐予測誤りに起因して50％未満の利用率を示していることが判明した。
クラスタリング解析から、AIベンチマークにおける少数のイテレーション（例：1～10エポック）でも、フルトレーニング実行時と同様のマイクロアーキテクチャ的挙動が得られ、短時間のイテレーションで十分にアーキテクチャ評価が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。