[論文レビュー] AIBench: An Industry Standard AI Benchmark Suite from Internet Services.
AIBench は、実際のインターネットサービスワークロードから開発された包括的で業界標準のAIベンチマークスイートであり、17の代表的AIタスクを備えており、多様性と代表性を確保しています。適切に選択されたサブセットにより、ベンチマークコストを41%削減しながらも、主要なワークロード特性を維持しており、モデルの複雑さ、計算パターン、ホットスポット分析において MLPerf を上回っています。
The booming successes of machine learning in different domains boost industry-scale deployments of innovative AI algorithms, systems, and architectures, and thus the importance of benchmarking grows. However, the confidential nature of the workloads, the paramount importance of the representativeness and diversity of benchmarks, and the prohibitive cost of training a state-of-the-art model mutually aggravate the AI benchmarking challenges. In this paper, we present a balanced AI benchmarking methodology for meeting the subtly different requirements of different stages in developing a new system/architecture and ranking/purchasing commercial off-the-shelf ones. Performing an exhaustive survey on the most important AI domain-Internet services with seventeen industry partners, we identify and include seventeen representative AI tasks to guarantee the representativeness and diversity of the benchmarks. Meanwhile, for reducing the benchmarking cost, we select a benchmark subset to a minimum-three tasks-according to the criteria: diversity of model complexity, computational cost, and convergence rate, repeatability, and having widely-accepted metrics or not. We contribute by far the most comprehensive AI benchmark suite-AIBench. The evaluations show AIBench outperforms MLPerf in terms of the diversity and representativeness of model complexity, computational cost, convergent rate, computation and memory access patterns, and hotspot functions. With respect to the AIBench full benchmarks, its subset shortens the benchmarking cost by 41%, while maintaining the primary workload characteristics. The specifications, source code, and performance numbers are publicly available from the web site this http URL.
研究の動機と目的
- 業界規模のAIシステム開発における代表的で多様なAIベンチマークの増大するニーズに対応する。
- 機密ワークロード、高いトレーニングコスト、ベンチマークの再現可能性の必要性といった課題を克服する。
- システム開発と商用システムランク付けの両方を支援するベンチマークスイートの開発。
- モデルの複雑さ、計算コスト、収束速度、メモリアクセスパターンの広範なカバレッジを確保する。
- 主なワークロード特性の忠実度を損なわず、ベンチマークコストを最小限に抑える。
提案手法
- 17の業界パートナーを対象に包括的調査を実施し、インターネットサービスからの17の代表的AIタスクを同定。
- モデルの複雑さ、計算コスト、収束速度、再現可能性の多様性に基づき、最小限の3タスク以上のサブセットを選定。
- 広く受け入れられたメトリクスを優先することで、一貫性と比較可能性を確保。
- ホットスポット関数を含む、主要な計算およびメモリアクセスパターンを捉えるようにベンチマークスイートを設計。
- 仕様書、ソースコード、パフォーマンスデータを公開サイトを通じて一般公開。
- AIBench を MLPerf と比較して評価し、ワークロード特性の代表性和と多様性において優位性を実証。
実験結果
リサーチクエスチョン
- RQ1実際のインターネットサービスワークロードの真の多様性と複雑さを反映するAIベンチマークスイートは、どのように設計できるか?
- RQ2忠実度を損なわず、コストを削減する最小限の代表的ベンチマークサブセットを構築するための基準は何か?
- RQ3AIBench は、MLPerf や他の既存ベンチマークと比較して、モデルの複雑さや計算パターンをどの程度よく捉えているか?
- RQ4ベンチマークサブセットは、フルベンチマークスイートの主な特性をどの程度正確に保持しているか?
- RQ5広く受け入れられたメトリクスは、大規模AIベンチマークにおける再現可能性と比較可能性を確保するために、どのような役割を果たすか?
主な発見
- AIBench は、実際のインターネットサービスワークロードから導出された17の代表的AIタスクを含み、高い代表性和と多様性を確保している。
- ベンチマークサブセットは、フル AIBench スイートと比較して、総合的なベンチマークコストを41%削減している。
- サブセットは、モデルの複雑さ、計算コスト、収束速度といった主なワークロード特性を維持している。
- AIBench は、モデルの複雑さ、計算コスト、メモリアクセスパターンの多様性を捉える点で、MLPerf を上回っている。
- AIBench は、システム評価に不可欠なホットスポット関数と計算パターンのカバレッジをより良く提供している。
- 仕様書、ソースコード、パフォーマンス数値はすべて公開されており、再現性とコミュニティ利用を可能にしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。