QUICK REVIEW

[論文レビュー] No more 996: Understanding Deep Learning Inference Serving with an Automatic Benchmarking System.

Huaizheng Zhang, Yizheng Huang|arXiv (Cornell University)|Nov 4, 2020

Advanced Neural Network Applications参考文献 19被引用数 4

ひとこと要約

この論文では、深層学習推論サービングのための自動的で設定駆動型のベンチマークイングシステムを提示する。このシステムは、異種のハードウェアおよびソフトウェアスタックにわたるワークロード生成、ジョブディスパッチ、パフォーマンス分析を自動化する。2段階スケジューラーを統合することで、平均的なジョブコンパイル時間を最大1.43倍（30%の改善）に短縮し、開発者が最小限の設定で迅速にモデルデプロイ構成を評価・最適化できる。

ABSTRACT

Deep learning (DL) models have become core modules for many applications. However, deploying these models without careful performance benchmarking that considers both hardware and software's impact often leads to poor service and costly operational expenditure. To facilitate DL models' deployment, we implement an automatic and comprehensive benchmark system for DL developers. To accomplish benchmark-related tasks, the developers only need to prepare a configuration file consisting of a few lines of code. Our system, deployed to a leader server in DL clusters, will dispatch users' benchmark jobs to follower workers. Next, the corresponding requests, workload, and even models can be generated automatically by the system to conduct DL serving benchmarks. Finally, developers can leverage many analysis tools and models in our system to gain insights into the trade-offs of different system configurations. In addition, a two-tier scheduler is incorporated to avoid unnecessary interference and improve average job compilation time by up to 1.43x (equivalent of 30\% reduction). Our system design follows the best practice in DL clusters operations to expedite day-to-day DL service evaluation efforts by the developers. We conduct many benchmark experiments to provide in-depth and comprehensive evaluations. We believe these results are of great values as guidelines for DL service configuration and resource allocation.

研究の動機と目的

深層学習モデルデプロイにおける体系的なパフォーマンスベンチマークの欠如が、最適でないサービス品質と高い運用コストをもたらすという問題に取り組む。
シンプルな設定ファイルを通じて自動ベンチマークを可能にすることで、開発者のエンジニアリング負荷を軽減する。
包括的な分析ツールとモデルを用いて、システム構成のトレードオフに関する実行可能なインサイトを提供する。
干渉を最小限に抑え、コンパイルを加速する2段階スケジューラーを用いることで、DLクラスタにおけるジョブスケジューリング効率を向上させる。
多様なハードウェアおよびソフトウェアスタックにわたる深層学習サービングパフォーマンスの標準的で再現可能な評価フレームワークを確立する。

提案手法

システムは、モデル、ワークロード、ターゲットハードウェアを定義する数行のコードで構成される設定ファイルを使用し、自動的なジョブ生成を可能にする。
リーダーフォロワーアーキテクチャにより、中央サーバーからワーカーノードへベンチマークジョブがディスpatchされる。
システムは、設定に従って自動的に推論リクエスト、ワークロード、モデルを生成し、一貫性があり再現可能なベンチマークを保証する。
2段階スケジューラーがジョブスケジューリングを管理し、干渉を低減し、コンパイル効率を向上させ、最大1.43倍の高速化を達成する。
パフォーマンストレードオフを異なる構成で評価するために、複数の分析ツールとモデルを統合する。
システムの設計は、DLクラスタ運用におけるベストプラクティスに従い、日常的なサービス評価とチューニングを簡素化する。

実験結果

リサーチクエスチョン

RQ1深層学習推論サービングを、開発者の作業負荷を最小限に抑えながら、どのように効率的にベンチマーク化できるか？
RQ2DLクラスタにおけるジョブスケジューリングは、コンパイル時間とシステムスループットにどのような影響を与えるか？
RQ3異なるハードウェアおよびソフトウェア構成は、推論パフォーマンスとリソース利用にどのように影響するか？
RQ4モデルデプロイ構成における主なパフォーマンストレードオフは何か？
RQ5自動ベンチマークイングシステムは、生産環境のDLデプロイで運用コストを削減し、サービス品質を向上させることができるか？

主な発見

提案されたベンチマークイングシステムにより、開発者は数行の設定コードだけで包括的なパフォーマンス評価を開始できる。
2段階スケジューラーは、平均的なジョブコンパイル時間を最大1.43倍に短縮し、30%のパフォーマンス向上に相当する。
システムは、推論ワークロード、リクエスト、モデルの自動生成をサポートしており、一貫性があり再現可能なベンチマークを保証する。
統合された分析ツールとモデルを通じて、システム構成のトレードオフに関する実行可能なインサイトを提供する。
包括的なベンチマーク実験により、モデルデプロイおよびリソース割り当ての実用的ガイドラインとして機能する詳細な評価が得られた。
システムは、生産環境でのベストプラクティスに適合するように設計されており、深層学習サービスの日常的な評価とチューニングを加速する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。