QUICK REVIEW

[論文レビュー] AIBench: An Industry Standard Internet Service AI Benchmark Suite

Wanling Gao, Fei Tang|arXiv (Cornell University)|Aug 13, 2019

IoT and Edge/Fog Computing参考文献 58被引用数 31

ひとこと要約

AIBenchは、17の業界パートナーとともに開発された、インターネットサービス分野におけるAIワークロードのための最初の業界標準ベンチマークスイートです。16のコンponentベンチマークを含む柔軟で拡張可能なフレームワークを提供しており、学習による順序付け、物体検出、レコメンデーションなどの主要なAI問題領域に加え、エンドツーエンドの eコマース検索アプリケーションベンチマークも備えており、実規模のデータとワークロード上で、マイクロカーネルからフルスタックワークロードまで包括的なパフォーマンス分析を可能にします。

ABSTRACT

Today's Internet Services are undergoing fundamental changes and shifting to an intelligent computing era where AI is widely employed to augment services. In this context, many innovative AI algorithms, systems, and architectures are proposed, and thus the importance of benchmarking and evaluating them rises. However, modern Internet services adopt a microservice-based architecture and consist of various modules. The diversity of these modules and complexity of execution paths, the massive scale and complex hierarchy of datacenter infrastructure, the confidential issues of data sets and workloads pose great challenges to benchmarking. In this paper, we present the first industry-standard Internet service AI benchmark suite---AIBench with seventeen industry partners, including several top Internet service providers. AIBench provides a highly extensible, configurable, and flexible benchmark framework that contains loosely coupled modules. We identify sixteen prominent AI problem domains like learning to rank, each of which forms an AI component benchmark, from three most important Internet service domains: search engine, social network, and e-commerce, which is by far the most comprehensive AI benchmarking effort. On the basis of the AIBench framework, abstracting the real-world data sets and workloads from one of the top e-commerce providers, we design and implement the first end-to-end Internet service AI benchmark, which contains the primary modules in the critical paths of an industry scale application and is scalable to deploy on different cluster scales. The specifications, source code, and performance numbers are publicly available from the benchmark council web site http://www.benchcouncil.org/AIBench/index.html.

研究の動機と目的

インターネットサービス分野における業界規模のAIワークロードのための、公開可能で代表的かつスケーラブルなベンチマークの不足に対処すること。
実際のAIアプリケーションのベンチマーキングにおいて直面するデータ機密性、システムの複雑さ、アーキテクチャの多様性の課題を克服すること。
細粒度のコンponentベンチマークとフルスタックのエンドツーエンドアプリケーション評価を両立できる包括的なベンチマークフレームワークの開発。
公開可能な仕様、ソースコード、パフォーマンスデータの提供により、業界間および学術的共同研究を可能にすること。
トップクラスのeコマースプロバイダーから得た実際のAIワークロードをモデル化することで、学術的研究と産業実務のギャップを埋めること。

提案手法

データ入力、AI問題領域、オンライン推論、オフライン学習、デプロイメントなどのモジュール化された、相互に結合の弱いコンponentを備えたフレームワークを設計。
実際の検索、ソーシャルネットワーク、eコマースワークロードから抽出された、画像からテキストへの変換、音声からテキストへの変換、3次元物体再構築、学習による順序付けなど、16の代表的なAI問題領域を特定・実装。
トップクラスのプロバイダーの実プロダクションデータとワークロードに基づくエンドツーエンドのeコマース検索ベンチマークを構築し、重要なパスモジュールをスケールで再現。
コンponentベンチマーク全体にまたがる12の基本的な計算ユニット（マイクロベンチマーク）を実装し、カーネルレベルのパフォーマンス分析を可能に。
GPU実行効率の分析を、詳細なスタールプロファイリング（例：メモリ依存性、実行依存性、テクスチャスタール）を用いて、カーネルレベルおよび関数レベルで実施。
プロファイリングツールを用いてホットスポット関数やパフォーマンスボトルネックを特定。例：maxwell_scudnn_128x32_stridedB_splitK_interior_nn（18.5% SM効率）のような低最適化カーネル。

実験結果

リサーチクエスチョン

RQ1大規模なインターネットサービス分野における実際のAIワークロードを的確に表現できる包括的で拡張可能かつ業界で検証済みのベンチマークスイートを設計するにはどうすればよいか？
RQ2現代のインターネットサービスの重要な計算的特徴を捉えるために、最も代表的なAI問題領域は何か？
RQ3AIコンponentがエンドツーエンドのインターネットサービスワークロードにおける重要なパスやパフォーマンスボトルネックに、どの程度影響を与えるか？
RQ4多様なAIワークロードにわたり、カーネルレベルおよび関数レベルでのパフォーマンスボトルネックをどのように特定・分析できるか？
RQ5GPU実行における主なパフォーマンス劣化要因（例：スタール）は何か？また、異なるAI演算およびハードウェアカーネルごとに、それらはどのように変動するか？

主な発見

学習による順序付け（learning_to_rank）コンponentは、高いメモリ依存性スタール（61%）と最適化が低いカーネル（maxwell_scudnn_128x32_stridedB_splitK_interior_nn）の影響により、最も低いSM効率（29%）を示し、18.5%のSM効率にとどまる。
要素演算におけるメモリ依存性スタールは、合計スタールの最大68%を占め、データの局所性とアクセスパターンが主要なパフォーマンスボトルネックであることを示している。
多くのカーネルで実行依存性スタールが顕著であるため、より良いカーネルスケジューリングやコード生成によって、命令レベル並列性を向上させられる可能性がある。
関数レベルのプロファイリングにより、畳み込みにおけるmaxwell_scudnn_128x32_stridedB_splitK_interior_nnは61%のメモリ依存性スタールを示す一方、GEMMにおけるmaxwell_sgemm_128x64_nnはわずか18%にとどまる。これは最適化ニーズの差を示している。
エンドツーエンドベンチマークは、重要なパスにおけるAI駆動のワークロードシフトを的確に捉えており、単独のマイクロベンチマークではなく、フルスタックアプリケーションベンチマークの必要性を裏付けている。
このベンチマークスイートにより、業界規模のサービスから得られる実際のデータセット、ワークロード、ユーザーログへの公開アクセスがなかったためにこれまで得られなかった詳細なパフォーマンスインサイトが可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。