QUICK REVIEW

[論文レビュー] Deep Learning Recommendation Model for Personalization and Recommendation Systems

Maxim Naumov, Dheevatsa Mudigere|arXiv (Cornell University)|May 31, 2019

Recommender Systems and Techniques参考文献 23被引用数 390

ひとこと要約

DLRMは、埋め込みを用いてスパースなカテゴリ特徴を扱い、MLPを用いて密な特徴を扱うことで、明示的な二次相互作用と最終的なMLPを組み合わせてイベント確率を予測する、最先端の個人化推薦向けニューラルネットワークを提示する。データ並列とモデル並列を混在させた戦略も導入し、マルチGPUハードウェア上で埋め込みとMLPをスケールさせる。

ABSTRACT

With the advent of deep learning, neural network-based recommendation models have emerged as an important tool for tackling personalization and recommendation tasks. These networks differ significantly from other deep learning networks due to their need to handle categorical features and are not well studied or understood. In this paper, we develop a state-of-the-art deep learning recommendation model (DLRM) and provide its implementation in both PyTorch and Caffe2 frameworks. In addition, we design a specialized parallelization scheme utilizing model parallelism on the embedding tables to mitigate memory constraints while exploiting data parallelism to scale-out compute from the fully-connected layers. We compare DLRM against existing recommendation models and characterize its performance on the Big Basin AI platform, demonstrating its usefulness as a benchmark for future algorithmic experimentation and system co-design.

研究の動機と目的

個人化推奨およびクリック率予測においてニューラルモデルの必要性を動機づける。
カテゴリ特徴の埋め込みと連続特徴の下層密なMLPを組み合わせ、因子分解マシン風の相互作用とMLPヘッドを統合した統一アーキテクチャを提案する。
DLRMのPyTorchとCaffe2のオープンソース実装を提供する。
大規模埋め込みテーブルに対し、ハイブリッドなモデルデータ並列性戦略を用いてメモリと計算の課題に対処する。

提案手法

カテゴリ特徴を大規模な埋め込みテーブルを介して埋め込み、疎な入力を密なベクトルへ変換する。
連続特徴を下層MLPで処理し、埋め込みと同じ長さの密な表現を得る。
埋め込みベクトルと密な特徴の内積によって明示的な二次相互作用を計算し、相互作用重視の経路に通すこともある。
相互作用と処理済みの密特徴を結合し、上位MLPを通じてシグモイドによる確率を出力する。
標準的な損失関数（交差エントロピー）を用いたSGD/Adagrad最適化で訓練・評価し、Deep and Cross Networksなどのベースラインモデルと比較する。
埋め込みにはモデル並列、MLPにはデータ並列を適用するハイブリッド並列性を実装し、カスタム埋め込みルーティングとアロto-all通信を組み合わせる（ただしPyTorch/Caffe2にはネイティブ対応がない）。

実験結果

リサーチクエスチョン

RQ1埋め込みベースの表現を密特徴処理と統合して、CTR/予測性能をどのように改善できるか。
RQ2他のモデルの高次相互作用と比較して、DLRMにおける二次相互作用の影響はどの程度か。
RQ3混合型のモデル/データ並列戦略は、非常に大規模な埋め込みテーブルをマルチGPUハードウェア上で効率的に訓練できるか。
RQ4公開CTRデータセットにおける精度とパラメータ効率の観点から、DLRMは既存モデル（例えば DCN）とどう比較されるか。

主な発見

DLRMは、Criteo Ad Kaggleデータセットで、広範なハイパーパラメータ調整を行わずともDCNより訓練・検証精度がわずかに高い。
大規模な埋め込みテーブルと大規模なMLPを搭載したシングルソケットデバイスでは、CPUで埋め込みルックアップが実行時間の大半を占め、GPUでは全結合層が支配する。
モデルは数億 Parameterに達し得る（報告された構成では約540M）で、埋め込みパラメータとMLPパラメータのバランスを取る。
埋め込みにはモデル並列、MLPにはデータ並列を用いる特化したハイブリッド並列性アプローチによりマルチGPUへのスケーリングを可能にし、性能プロファイリングでは実質的な改善と現実的なタイミングベンチマークを示す（CPU ~256s、GPU ~62s、サンプル構成の場合）。
著者はPyTorchとCaffe2のオープンソース実装を提供し、Big Basin AIプラットフォーム上で8つのNvidia Tesla V100 GPUを用いて評価する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。