QUICK REVIEW

[論文レビュー] Clipper: A Low-Latency Online Prediction Serving System

Daniel Crankshaw, Xin Wang|arXiv (Cornell University)|Dec 9, 2016

Data Stream Mining Techniques参考文献 36被引用数 81

ひとこと要約

Clipper は、モジュラーで階層的なアーキテクチャを介して機械学習フレームワークからオンライン推論を分離することで、汎用的で低レイテンシーな予測サービングシステムである。キャッシュ、アダプティブバッチ処理、複数のフレームワークにわたる動的モデル選択を活用することで、レイテンシーを低減しスループットを向上させ、TensorFlow Serving と同等のパフォーマンスを達成しながら、フレームワーク間のモデルコンposition、オンライン学習、文脈依存のパーソナライゼーションを最小限のオーバーヘッドで実現する。

ABSTRACT

Machine learning is being deployed in a growing number of applications which demand real-time, accurate, and robust predictions under heavy query load. However, most machine learning frameworks and systems only address model training and not deployment. In this paper, we introduce Clipper, a general-purpose low-latency prediction serving system. Interposing between end-user applications and a wide range of machine learning frameworks, Clipper introduces a modular architecture to simplify model deployment across frameworks and applications. Furthermore, by introducing caching, batching, and adaptive model selection techniques, Clipper reduces prediction latency and improves prediction throughput, accuracy, and robustness without modifying the underlying machine learning frameworks. We evaluate Clipper on four common machine learning benchmark datasets and demonstrate its ability to meet the latency, accuracy, and throughput demands of online serving applications. Finally, we compare Clipper to the TensorFlow Serving system and demonstrate that we are able to achieve comparable throughput and latency while enabling model composition and online learning to improve accuracy and render more robust predictions.

研究の動機と目的

多様な機械学習フレームワークをサポートする汎用的で低レイテンシーな予測サービングシステムの不足に対処すること。
下位の機械学習フレームワークを変更せずに推論レイテンシーを低減し、スループットを向上させること。
動的モデル選択、アンサンブル手法、不確実性推定を通じて予測の精度と耐障害性を向上させること。
パフォーマンスを損なわず、モデル間でオンライン学習とパーソナライゼーションを実現すること。
新規モデルやフレームワークの迅速な統合を可能にするモジュラーで拡張可能なアーキテクチャを提供すること。

提案手法

Clipper は二層構造を採用している：モデル抽象化レイヤーはフレームワークに依存しないモデルインターフェースを抽象化し、透明なデプロイと実行を可能にする。
モデル選択レイヤーは、バンディットアルゴリズムとアンサンブル技術を用いて複数のモデルの予測を動的に選択・統合し、精度と耐障害性を向上させる。
キャッシュとアダプティブバッチ処理は、モデル抽象化レイヤーに適用され、クエリ負荷下での尾部レイテンシーの上限を設定し、スループットを最大化する。
ストラグルマイトゲーションはモデル選択レイヤーで使用され、遅延の大きいモデルに待たされることを回避し、エンドツーエンドのレイテンシーを低減する。
システムはRustで実装されており、共通のAPIを提供するため、新しいフレームワークの統合に25行未満のコードで可能である。
Clipper はフレームワーク間のモデルコンポジションとオンライン学習をサポートし、ユーザー固有のフィードバックや変化するデータに動的に適応可能である。

実験結果

リサーチクエスチョン

RQ1予測サービングシステムは、多様な機械学習フレームワークにわたってどのようにして低くかつ上限のあるレイテンシーを達成できるか？
RQ2モジュラーで汎用的なサービングシステムは、TensorFlow Serving のような密結合システムと同等のパフォーマンスを達成できるか？
RQ3動的モデル選択はオンラインサービング環境において、予測の精度と耐障害性をどのように向上させることができるか？
RQ4下位のMLフレームワークを変更せずに、効率的なキャッシュとバッチ処理を実現するメカニズムは何か？
RQ5オンライン学習とパーソナライゼーションは、低レイテンシーなサービングシステムに効果的に統合できるか？

主な発見

Clipper は、すべてのベンチマークデータセットで20ms未塔の尾部レイテンシーを達成し、高負荷下でもきびしいレイテンシー制限を示している。
キャッシュとアダプティブバッチ処理を用いることで、高いクエリ負荷下でも最大26倍のスループット向上が観測された。
Clipper は、スループットとレイテンシーの両面で TensorFlow Serving と同等のパフォーマンスを発揮しながら、はるかに多様な機能をサポートしている。
システムは動的モデルコンポジションとオンライン学習を可能にし、実世界のシナリオでの精度と耐障害性を向上させている。
新しい機械学習フレームワークは25行未満のコードで統合可能であり、高い拡張性を示している。
モデル選択レイヤーでのストラグルマイトゲーションは、遅延の大きいモデルに依存しないことで、効果的にレイテンシーを低減している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。