QUICK REVIEW

[論文レビュー] MLPerf Training Benchmark

Peter Mattson, Christine Cheng|arXiv (Cornell University)|Oct 2, 2019

Machine Learning and Data Classification参考文献 52被引用数 172

ひとこと要約

MLPerf Training Benchmarkは、複数のラウンドとワークロードにまたがる精度、確率性、ソフトウェアの多様性を考慮しつつ、システム性能を公正に評価する包括的なエンドツーエンドのMLトレーニングベンチマークを提示します。

ABSTRACT

Machine learning (ML) needs industry-standard performance benchmarks to support design and competitive evaluation of the many emerging software and hardware solutions for ML. But ML training presents three unique benchmarking challenges absent from other domains: optimizations that improve training throughput can increase the time to solution, training is stochastic and time to solution exhibits high variance, and software and hardware systems are so diverse that fair benchmarking with the same binary, code, and even hyperparameters is difficult. We therefore present MLPerf, an ML benchmark that overcomes these challenges. Our analysis quantitatively evaluates MLPerf's efficacy at driving performance and scalability improvements across two rounds of results from multiple vendors.

研究の動機と目的

代表的なエンドツーエンドのMLトレーニングベンチマークスイートを、さまざまなワークロード、モデル、最適化手法を網羅して定義する。
公正な比較を可能にするための基準実装と同等のハイパーパラメータを確立する。
確率性の影響を最小化しつつ厳密さを維持するためのタイミングルールと品質目標を導入する。
提出コードとトレーニングログを公開可能にして再現性を促進する。
商業および研究コミュニティ間の協力を促進するガバナンス構造を、ワーキンググループの形で整備する。

提案手法

ビジョン、言語、推奨、強化学習にまたがる七タスクのベンチマークスイートをキュレーションする。
時間-トレインを主要な性能指標として用い、速度と精度を同時に捉える。
各ベンチマークで最先端に近い品質閾値を設定し、基準実装（PyTorchまたはTensorFlow）を提供する。
初期化およびデータのリフォーマットなど代表的でないオーバーヘッドを除外するタイミングルールを定義し、モデル作成の許容時間を20分とする。
ベンチマークごとに複数回の実行を要求して結果を安定化させ、最速および最遅の実行を除いた平均を報告する。
制御された制約の下で変更可能なハイパーパラメータを提供し、システム最適化と公正なスケール間の比較を両立させる。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドのMLトレーニングにおいて、さまざまなハードウェアとソフトウェアスタックを公正に比較するにはどうすればよいか。
RQ2現実世界のMLトレーニングを反映しつつ、クロスシステム比較を公正に可能にするワークロードとモデルタイプは何か。
RQ3最適化は、異なるスケールと精度でモデル品質、トレーニング時間、収束にどのような影響を与えるか。
RQ4再現性と公正な参加を確保するためのルールとガバナンスは、ラウンドと部門を跨いでどのように機能すべきか。

主な発見

MLPerfは、ワークロードの幅広さとエンドツーエンドのタイミング・品質目標を組み合わせ、MLトレーニングのスループット・精度・確率性に対処する。
ベンチマークは、公正な比較を保証するために基準実装と同等のハイパーパラメータを課す。
MLPerfは、準備オーバーヘッドを除外し、産業規模のトレーニングを反映するための限定的なモデル作成時間を許容するタイミングルールを用いる。
各ベンチマークごとに複数回の実行を用いて実行間ばらつきを緩和し、安定した結果を得る。タスクごとに特定の実行回数要件を設定。
2回のラウンド（v0.5とv0.6）でベンダー間の進捗を評価し、ベンチマーキングのカバレッジと参加の進化を示した。
提出物はコンプライアンスを審査され、オープン/クローズドの部門および系統カテゴリ（available/preview/research）で報告され、公正性と包摂性を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。