[論文レビュー] MLPerf Inference Benchmark
MLPerf Inference は、多様なハードウェアおよびソフトウェアスタックをカバーする機械学習推論システムを評価するための標準化された業界横断的ベンチマークスイートを導入した。4つの現実的で実用的なシナリオ—シングルストリーム、マルチストリーム、サーバー、オフライン—を定義し、厳密な正確性の目標と遅延の上限を設けることで、14の組織から30以上のシステムが参加する中で、公平で再現可能かつアーキテクチャに依存しない性能比較を可能にした。
Machine-learning (ML) hardware and software system demand is burgeoning. Driven by ML applications, the number of different ML inference systems has exploded. Over 100 organizations are building ML inference chips, and the systems that incorporate existing models span at least three orders of magnitude in power consumption and five orders of magnitude in performance; they range from embedded devices to data-center solutions. Fueling the hardware are a dozen or more software frameworks and libraries. The myriad combinations of ML hardware and ML software make assessing ML-system performance in an architecture-neutral, representative, and reproducible manner challenging. There is a clear need for industry-wide standard ML benchmarking and evaluation criteria. MLPerf Inference answers that call. In this paper, we present our benchmarking method for evaluating ML inference systems. Driven by more than 30 organizations as well as more than 200 ML engineers and practitioners, MLPerf prescribes a set of rules and best practices to ensure comparability across systems with wildly differing architectures. The first call for submissions garnered more than 600 reproducible inference-performance measurements from 14 organizations, representing over 30 systems that showcase a wide range of capabilities. The submissions attest to the benchmark's flexibility and adaptability.
研究の動機と目的
- 機械学習推論システムのための標準化され、代表的で再現可能なベンチマークの不足に対処すること。
- 多様な ML ハードウェアおよびソフトウェアスタック間での公平で直接比較可能な性能評価を可能にすること。
- 実際の導入制約に一致するパフォーマンスメトリクス、正確性の目標、遅延の上限に関する合意形成を図ること。
- 定められたルールの下で柔軟な実装を許容することで、ハードウェアおよびソフトウェアの最適化を支援すること。
- コミュニティ主導のベンチマークフレームワークを通じて、業界全体での協力を促進すること。
提案手法
- シングルストリーム、マルチストリーム、サーバー、オフラインの4つの明確に区別された推論シナリオを定義し、それぞれにシナリオ固有のパフォーマンスメトリクスを設定する。
- 200名以上の ML エンジニアおよび実務家からのフィードバックに基づき、必須のモデル品質の目標と遅延の上限を設定する。
- 実際のワークロードをシミュレートし、一貫したデータ入出力処理を強制するために、標準化された LoadGen ツールを採用する。
- クローズド部門(厳密なルール遵守)とオープン部門(広範なソフトウェアおよびハードウェアの柔軟性)の両方をサポートする。
- 再現可能性とアクセシビリティを確保するため、PyTorch および TensorFlow でのリファレンス実装を提供する。
- 自動チェックおよび提出検証ツールを用いて、結果の正確性、適合性、監査可能性を保証する。
実験結果
リサーチクエスチョン
- RQ1どのようにして、まったく異なるハードウェアおよびソフトウェアシステム間で、機械学習推論のパフォーマンスを公平に測定できるか?
- RQ2データセンターやエッジデバイス、モバイルシステムにおける実際の導入制約を最もよく反映するパフォーマンスメトリクスは何か?
- RQ3パフォーマンスと品質の間の意味のあるトレードオフ分析を可能にするために、モデルの正確性をどのように標準化できるか?
- RQ4多様な提出物において再現可能性と整合性を保証するためのベンチマークルールとワークフローは何か?
- RQ5合意形成に基づくベンチマークフレームワークは、ML 推論ワークロードの全範囲を効果的に表現できるか?
主な発見
- 初回の MLPerf Inference 提出ラウンドでは、14の組織から30以上の異なるシステムが参加し、600件以上の再現可能なパフォーマンス測定が収集された。
- 定義された4つのシナリオ間でパフォーマンスに顕著な差が見られ、シナリオ固有のベンチマークの重要性が裏付けられた。
- 正確性の目標と遅延の上限の導入により、システム間での正確性/パフォーマンスのトレードオフが一貫して評価可能になった。
- LoadGen ツールと自動チェックにより、手動での監査作業が大幅に削減され、結果の整合性が向上した。提出物の検証には約3名のエンジニアで十分だった。
- このベンチマークは、バッチ処理、モデルの量子化、ハードウェア・ソフトウェア共同設計などの最適化を、多様なプラットフォームで効果的に捉えた。
- 30以上の組織と200名以上の実務家が参加するコミュニティ主導の開発プロセスにより、広範な関連性と現実世界への適用可能性が確保された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。