[論文レビュー] INFaaS: A Model-less Inference Serving System
INFaaS は、機械学習推論ワークロードのリソースおよび設定意思決定を自動化するモデルフリーのインフラストラクチャとしての推論サービスです。ユーザーが指定したパフォーマンスおよび正確性要件に基づき、動的に最適なモデルバージョン、ハードウェア、スケーリング戦略を選択することで、Clipper や TensorFlow Serving よりも最大 150 倍のコスト削減、1.5 倍のスループット向上、1.5 倍のレイテンシ違反の減少を達成します。
Despite existing work in machine learning inference serving, ease-of-use and cost efficiency remain key challenges. Developers must manually match the performance, accuracy, and cost constraints of their applications to decisions about selecting the right model and model optimizations, suitable hardware architectures, and auto-scaling configurations. These interacting decisions are difficult to make for users, especially when the application load varies, applications evolve, and the available resources vary over time. Thus, users often end up making decisions that overprovision resources. This paper introduces INFaaS, a model-less inference-as-a-service system that relieves users of making these decisions. INFaaS provides a simple interface allowing users to specify their inference task, and performance and accuracy requirements. To implement this interface, INFaaS generates and leverages model-variants, versions of a model that differ in resource footprints, latencies, costs, and accuracies. Based on the characteristics of the model-variants, INFaaS automatically navigates the decision space on behalf of users to meet user-specified objectives: (a) it selects a model, hardware architecture, and any compiler optimizations, and (b) it makes scaling and resource allocation decisions. By sharing models across users and hardware resources across models, INFaaS achieves up to 150x cost savings, 1.5x higher throughput, and violates latency objectives 1.5x less frequently, compared to Clipper and TensorFlow Serving.
研究の動機と目的
- 機械学習推論サービスにおけるモデル、ハードウェア、自動スケーリングの手動かつミスの多い設定の課題に対処する。
- 動的ワークロードにおける複雑で相互に依存する意思決定の結果として生じるリソースの過剰プロビジョニングを低減する。
- ユーザーが推論タスクと望ましいパフォーマンス/正確性制約のみを指定できるようにする。
- モデル選択、ハードウェア、コンパイラー最適化、スケーリングの意思決定空間を自動的に探索する。
- 複数ユーザー間でのモデル共有とリソース共有を通じて、コストとパフォーマンスの大幅な向上を実現する。
提案手法
- リソース消費量、レイテンシ、コスト、正確性が異なるさまざまなバージョンのモデル(モデルバージョン)を生成する。
- 中央集権的なシステムを用いてモデルバージョンの特性を分析し、それらをハードウェアおよび最適化設定にマッピングする。
- ユーザーが指定した目的に基づき、最適なモデル、ハードウェア、コンパイラー最適化の組み合わせを自動的に選択する。
- ワークロードの変化に応じて自動スケーリングおよびリソース割り当ての意思決定を動的に管理する。
- ユーザー間でモデルを共有し、モデル間でハードウェアリソースを共有することで、利用効率を向上させ、コストを削減する。
- 既存の推論サービングスタックと統合し、モデル固有の設定を必要としないシンプルなインターフェースを提供する。
実験結果
リサーチクエスチョン
- RQ1モデル選択、ハードウェア、コンパイラー最適化、スケーリングの意思決定空間を自動化することで、機械学習推論サービスにおける人的負担をどのように低減できるか?
- RQ2モデルバージョンを活用することで、共有推論サービング環境におけるコスト効率とパフォーマンスはどの程度向上できるか?
- RQ3Clipper や TensorFlow Serving と比較して、自動設定選択によりレイテンシ違反や過剰プロビジョニングはどの程度低減できるか?
- RQ4複数ユーザーおよびワークロード間でモデルとハードウェアを共有する際のパフォーマンスとコストのトレードオフは何か?
- RQ5動的ワークロードおよび進化するユーザー要件の下でも、システムは正確性とレイテンシの保証をどのように維持できるか?
主な発見
- INFaaS は、ユーザー間でのモデルおよびハードウェアの共有により、Clipper や TensorFlow Serving と比較して最大 150 倍のコスト削減を達成する。
- より良いリソース利用効率と設定により、ベースラインシステムと比較してスループットが 1.5 倍向上する。
- ユーザーが指定したレイテンシ目標を満たさない頻度が、Clipper や TensorFlow Serving よりも 1.5 倍低い。
- 最適なモデルバージョンおよび設定の自動選択により、過剰プロビジョニングが効果的に低減される。
- モデルバージョンの生成とランタイム意思決定により、低レベルの最適化に関するユーザーの専門知識がなくても、顕著なパフォーマンスおよびコストの向上が実現する。
- リソースおよびワークロード状態の変化に応じて動的に適応することで、多様なワークロードにおいて高い正確性と低いレイテンシを維持できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。