QUICK REVIEW

[論文レビュー] Deep Learning Inference in Facebook Data Centers: Characterization, Performance Optimizations and Hardware Implications

Jongsoo Park, Maxim Naumov|arXiv (Cornell University)|Nov 24, 2018

Cloud Computing and Resource Management被引用数 75

ひとこと要約

本論文はFacebookの DL 推論ワークロードを特徴づけ、計算/メモリのボトルネックを分析し、CPUとアクセラレータ向けの最適化とハードウェアへの影響を提案する。埋め込みメモリ要求、オンチップメモリのニーズ、低精度戦略を強調している。

ABSTRACT

The application of deep learning techniques resulted in remarkable\nimprovement of machine learning models. In this paper provides detailed\ncharacterizations of deep learning models used in many Facebook social network\nservices. We present computational characteristics of our models, describe high\nperformance optimizations targeting existing systems, point out their\nlimitations and make suggestions for the future general-purpose/accelerated\ninference hardware. Also, we highlight the need for better co-design of\nalgorithms, numerics and computing platforms to address the challenges of\nworkloads often run in data centers.\n

研究の動機と目的

Facebookデータセンターで使用されるDL推論ワークロードを、ランキング、CV、言語タスクに跨って特徴づける。
推論性能を形作る計算カーネル、メモリ/計算ボトルネック、アーキテクチャ要因を特定する。
今後の汎用推論ハードウェアと加速推論ハードウェアを導く最適化戦略とハードウェアへの影響を提案する。
データセンターのDL課題に対処するためのアルゴリズム、数値計算、計算プラットフォームの共同設計の必要性を強調する。
ハードウェア設計者と研究者に情報を提供する実証的なベンチマークと観察を提供する。

提案手法

推論ワークロードをランキング/推奨、コンピュータビジョン、言語モデルタスクに分類する。
代表的なモデル（埋め込み中心、全結合、畳み込み、シーケンスモデル）の算術強度とメモリ帯域幅要件を分析する。
層と形状を横断するメモリ対計算のボトルネックを理解するために roofline 型の解釈を行う。
精度を保つ戦略とともに、低精度推論技術（fp16、8-bitおよびアウトライア対応量子化）を開発・適用する。
演算子レベルの性能を監視し最適化優先度を導くデータセンタープロファイリング/オブザーバフレームワークを実装する。
標準BLASを超えるDL最適化線形代数のソフトウェアとインタフェースへの影響を議論する（例：ネイティブ畳み込み、Tall-Skinny行列）。

実験結果

リサーチクエスチョン

RQ1FacebookデータセンターにおけるDL推論ワークロードの特徴的な計算・メモリ特性は何か？
RQ2代表的なモデル（埋め込み中心、CV、言語）全体で主なボトルネックはどこか（メモリ帯域幅対計算）？
RQ3データセンター推論のCPUで有意な効果を生む最適化（低精度、カスタムカーネル、ソフトウェアスタック）は何か？
RQ4観測されたワークロード特性から導かれるハードウェア設計上の影響は何か？
RQ5進化する DL 推論ワークロードに対応するためのアルゴリズム、数値計算、プラットフォームの共同設計はどのように進めるべきか？

主な発見

カテゴリ	モデルタイプ	モデルサイズ（パラメータ数）	バッチサイズ（典型）	最大活性化数	演算強度（重み）	演算強度（活性化・重み）	レイテンシ（制約）
Recommendation	FCs	1–10M	1–100	>10K	20–200	20–200	10s of ms
Embeddings	>10 Billion	1–100	>10K	1–2	1–2	10s of ms
Computer Vision	ResNet-50	25M	1 image	2M	avg. 303/min. 100	avg. 164/min. 25	No strict constraints
ResNeXt-101-32x4-48	43–829M	1 image	2.4–29M	avg. 380/min. 100	avg. 188/min. 28
Faster-RCNN-Shuffle	6M	1 image	13.2M	avg.3.5K/min.2.5K	avg. 145/min. 4
ResNeXt3D-101	21M	1 clip	58M	avg. 22K/min. 2K	avg. 172/min. 6
Language	seq2seq (GRU/LSTM)	100M-1B	1-8 tokens	>100K	2–20	2–20	10s of ms

埋め込み検索は疎で大規模な埋め込みテーブルを伴い、メモリ容量と帯域の考慮を大きく要求するため、メモリトラフィックを支配する。
オンチップメモリ容量と帯域幅は大規模な活性化と現代のCVモデルの性能に大きく影響する。メモリ帯域幅はしばしば性能を制限し、計算だけでなくボトルネックとなる。
低精度技術（fp16、32-bit累積を用いたint8、アウトライヤ対応量子化）は、ボトネック層に適応的に適用すると、精度損失を最小限に抑えつつ substantial speedups をもたらす。
カスタムDL向けソフトウェアとカーネル（FBGEMM、非imagined im2col、ネイティブ畳み込みインタフェース）はCPU上のスループットを大幅に向上させうる。層ごとの量子化とキャリブレーションは精度にとって重要。
オペレータ観測機を用いた艦隊全体のプロファイリングアプローチは、多様なモデルに対して的確な最適化と現実的な性能目標を実現する。
表に基づくリソースプロファイルは、推奨、埋め込み、CV、言語タスクにおいて、モデルサイズ、バッチサイズ、活性化、レイテンシ制約の広いレンジを明らかにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。