[論文レビュー] Serving DNNs like Clockwork: Performance Predictability from the Bottom Up
Clockwork は DNN 推論が GPU 上で決定論的な実行を示すことを示し、中央集権的コントローラと各 GPU 用ワーカーを設計して予測可能なエンドツーエンドの遅延を達成し、数千のモデルに対する厳しい SLO を満たす。尾部遅延を最小化する変動が発生する場所を制約する予測的・ボトムアップ型アーキテクチャを初出する。
Machine learning inference is becoming a core building block for interactive web applications. As a result, the underlying model serving systems on which these applications depend must consistently meet low latency targets. Existing model serving architectures use well-known reactive techniques to alleviate common-case sources of latency, but cannot effectively curtail tail latency caused by unpredictable execution times. Yet the underlying execution times are not fundamentally unpredictable - on the contrary we observe that inference using Deep Neural Network (DNN) models has deterministic performance. Here, starting with the predictable execution times of individual DNN inferences, we adopt a principled design methodology to successively build a fully distributed model serving system that achieves predictable end-to-end performance. We evaluate our implementation, Clockwork, using production trace workloads, and show that Clockwork can support thousands of models while simultaneously meeting 100ms latency targets for 99.9999% of requests. We further demonstrate that Clockwork exploits predictable execution times to achieve tight request-level service-level objectives (SLOs) as well as a high degree of request-level performance isolation.
研究の動機と目的
- DNN 推論が GPU 上で決定論的な実行時間を示すことを実証する。
- 分散提供システムにおける予測性を維持する設計原理として選択を統合する。
- 中央集権型コントローラと予測可能なワーカーを備えた Clockwork のアーキテクチャを提示する。
- 本番類似のワークロードで Clockwork を評価し、レイテンシとスループットの点で従来システムと比較する。
提案手法
- 個々の DNN 推論が GPU 上で決定論的であることを主張・定量化する。
- 上位層の選択を統合して下位層の変動を制約する(スケジューリングとメモリ管理の決定を制限する)。
- Clockwork を中央コントローラと各 GPU 用ワーカーで実装し、1 回の Load と 1 回の Infer アクションを同時に実行する。
- プリ割り当てられたメモリと静的ワークスペースを用いてモデルをコンパイル・実行する TVM 上に構築されたモデルランタイムを使用する。
- 厳密なアクションベースのインターフェース(Load、Unload、Infer)を課し、最も早い/遅い実行ウィンドウとベストエフォートのリメディエーションを不可にする。
- 本番トレースワークロードで評価し、レイテンシ目標とモデル数のスケーラビリティを測定する。
実験結果
リサーチクエスチョン
- RQ1分散提供設定で DNN 推論を予測可能な決定論的実行として扱えるか。
- RQ2 workload が多数のモデルに拡大する際、予測可能な性能を維持するために設計上の選択をどう統合できるか。
- RQ3Clockwork は密なエンドツーエンドのレイテンシ SLO と強力なリクエスト単位の分離を、1 GPU あたり何千ものモデルをサポートしつつ達成できるか。
- RQ4スケジューリング決定を中央集権化する際、予測可能性とモジュール性のトレードオフはどうなるか。
- RQ5Clockwork は従来のモデル提供システムと比較してレイテンシ、良好性(goodput)、モデル共有でどう優れているか。
主な発見
- 推論のレイテンシは分離時点で highly predictable であり(v100 GPU で中央値の小さな差分内の 99.99 パーセンタイル)。
- 中央集権的コントローラと 1 回あたりの Infer アクションは、GPU・OS・他レイヤーによる変動を大幅に削減し、テール遅延を改善する。
- Clockwork は現実的なワークロード下で、1 GPU あたり数千のモデルをサポートし、99.9999% のリクエストに対してサブ 100 ms のレイテンシを満たす。
- 選択を統合することでベストエフォート機構の必要性を減らし、事前にスケジュール可能な実行を可能にする。
- Clockwork は Clipper および INFaaS と比較してレイテンシ目標を達成する点で有利であり、良好性とリソース共有も同等かそれ以上を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。