QUICK REVIEW

[論文レビュー] DeepRecSys: A System for Optimizing End-To-End At-scale Neural Recommendation Inference

Udit Gupta, Samuel Hsia|arXiv (Cornell University)|Jan 8, 2020

Stochastic Gradient Optimization Techniques参考文献 55被引用数 38

ひとこと要約

論文は大規模な神経推奨推論用のエンドツーエンドのインフラストラクチャDeepRecInfraと、リクエストごとのバッチサイズとGPUオフ로드を最適化してスループットを向上させ、テールレイテンシ目標下で最大化するヒルクライム型スケジューラDeepRecSchedを提示します。

ABSTRACT

Neural personalized recommendation is the corner-stone of a wide collection of cloud services and products, constituting significant compute demand of the cloud infrastructure. Thus, improving the execution efficiency of neural recommendation directly translates into infrastructure capacity saving. In this paper, we devise a novel end-to-end modeling infrastructure, DeepRecInfra, that adopts an algorithm and system co-design methodology to custom-design systems for recommendation use cases. Leveraging the insights from the recommendation characterization, a new dynamic scheduler, DeepRecSched, is proposed to maximize latency-bounded throughput by taking into account characteristics of inference query size and arrival patterns, recommendation model architectures, and underlying hardware systems. By doing so, system throughput is doubled across the eight industry-representative recommendation models. Finally, design, deployment, and evaluation in at-scale production datacenter shows over 30% latency reduction across a wide variety of recommendation models running on hundreds of machines.

研究の動機と目的

大規模データセンターにおける神経推奨推論最適化の必要性を動機づける。
業界を代表するモデル、ワークロード、テールレイテンシ目標を反映したエンドツーエンドのインフラストラクチャ（DeepRecInfra）を提案する。
リクエストレベルとバッチレベルの並列性をハードウェアアクセラレータと共設計するダイナミックなスケジューラ（DeepRecSched）を開発する。
本番規模の設定で複数のモデルとハードウェア構成におけるスループット向上とレイテンシ低減を実証する。

提案手法

モデルレベルの異質性とボトルネックを把握するために8つの最先端推薦モデルを特徴付ける。
DeepRecInfraを開発し、業界のワークロード、到着ポアソン分布のクエリ、そして本番データセンターのクエリサイズ分布をモデル化する。
DeepRecSchedを導入し、リクエストごとのバッチサイズとGPUオフロード閾値を調整してテールレイテンシ目標下のQPSを最大化する。
BroadwellおよびSkylake CPU上のDeepRecInfra内でCPUとGPU（GTX-1080Ti）を評価し、静的ベースラインと比較する。
ハードウェアのヘテロジニアス性（CPU SIMD幅、キャッシュ階層）がリクエストレベルとバッチレベルの並列性の最適バランスにどう影響するかを分析する。
DeepRecSchedがベースラインに比べて実質的なスループット向上と電力効率の改善を達成することを示す。

実験結果

リサーチクエスチョン

RQ1スケールの推奨推論が、モデルアーキテクチャ、メモリアクセス、入力特徴の点で他のDNNワークロードとどのように異なるのか。
RQ2エンドツーエンドのインフラストラクチャ（DeepRecInfra）は、スケール推論の現実世界の本番ワークロードを忠実にモデル化できるのか。
RQ3ヒルクライムベースのスケジューラ（DeepRecSched）は、 diverse models and hardware に跨るバッチサイズとアクセラレータオフロードを適応させてテールレイテンシ制約下のスループットを最大化できるのか。
RQ4現実的なクエリ分布の下で、GPUとCPU+GPUハイブリッドを使用する際のスループットとエネルギー効率の利点は何か。
RQ5ハードウェアのヘテロジニアス性は、リクエストごとの並列性とバッチレベルの並列性の最適配置にどのような影響を与えるのか。

主な発見

DeepRecInfraは、8つの業界代表モデル、現実的なテールレイテンシ目標、および本番に近いクエリパターンをモデル化できる。
DeepRecSchedは厳格なレイテンシ目標の下でシステムのスループットを2倍にし、すべての8モデルに対して静的スケジューラを上回る。
CPU対GPUの評価では、DeepRecSched-CPUが1.7–2.7xのスループット向上をもたらし、DeepRecSched-GPUはレイテンシ目標とモデルに応じて4.0–5.8xの向上を達成する。
GPU加速は大型クエリで最も有益であり、最適なGPUオフロード閾値はモデルとテールレイテンシ目標により異なる。
オフロードによってスループットが向上する一方でデータ転送オーバーヘッドが生じる。最適閾値は転送コストとスピードアップのバランスを取る。
最適なバッチサイズとオフロード閾値は、モデルアーキテクチャ、テールレイテンシ目標、ハードウェアプラットフォームに依存する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。