QUICK REVIEW

[論文レビュー] Developing a Recommendation Benchmark for MLPerf Training and Inference

Carole-Jean Wu, Robin Burke|arXiv (Cornell University)|Mar 16, 2020

Recommender Systems and Techniques参考文献 13被引用数 22

ひとこと要約

本論文は、MLPerf Training および Inference のためのスケーラブルで産業的関連性のある推薦ベンチマークを提案する。本ベンチマークは、多様なモデルアーキテクチャ、スパarsity、長尾アイテム分布、マルチスケールデータセットを組み込むことで、実世界の e コマースワークロードを反映するように設計されている。モデルおよびデータのための主要な設計原則を提示し、エンドツーエンドのCTRおよびコンversion rate予測を強調し、進化するAIシステムおよび推薦実務に合わせてベンチマークを最新の状態に保つための年次レビュー体制を確立する。

ABSTRACT

Deep learning-based recommendation models are used pervasively and broadly, for example, to recommend movies, products, or other information most relevant to users, in order to enhance the user experience. Among various application domains which have received significant industry and academia research attention, such as image classification, object detection, language and speech translation, the performance of deep learning-based recommendation models is less well explored, even though recommendation tasks unarguably represent significant AI inference cycles at large-scale datacenter fleets. To advance the state of understanding and enable machine learning system development and optimization for the commerce domain, we aim to define an industry-relevant recommendation benchmark for the MLPerf Training andInference Suites. The paper synthesizes the desirable modeling strategies for personalized recommendation systems. We lay out desirable characteristics of recommendation model architectures and data sets. We then summarize the discussions and advice from the MLPerf Recommendation Advisory Board.

研究の動機と目的

MLPerf Training および Inference のための代表的でスケーラブルな推薦ベンチマークを定義し、実世界の e コマースワークロードを反映すること。
低遅延要件と高精度要件を有するさまざまなレイテンシと精度要件を持つ、候補生成およびランク付けモデルを含む推薦ユースケースの多様性を捉えること。
スパarsity、パワーロー分布、および最大1億カテゴリの大型特徴量セットを含む、現実的なデータ特性をサポートすること。
深層学習に基づく推薦分野における現在および将来の産業的・学術的トレンドを反映するモデルアーキテクチャおよびデータセットの選定を支援すること。
進化するシステム最適化ニーズに合わせてベンチマークを最新化するため、MLPerf Recommendation Advisory Board を通じた年次精錬および整合性維持のためのガバナンスプロセスを確立すること。

提案手法

異なるシステムワークロードおよびモデル容量を反映するため、小規模、中規模、大規模な構成を備えたマルチスケールベンチマークを設計する。
最大1億カテゴリ/特徴量までを想定し、密度の高い特徴量（100～1000個）とスパースな特徴量（50:50の比率）を組み合わせ、産業スケールの推薦システムを反映する。
パワーロー分布やスパarsityといった実世界のデータ特性を採用し、より生産環境に近い実態を反映するため、Criteo Kaggleのようなデータセットを、より密度の高いMovieLensよりも優先的に使用する。
エンドツーエンドのCTRおよびコンversion rate予測をサポートし、完全な推薦パイプライン要件を反映する。
アテンション層、Transformers、RNN、因子分解マシンなどの先進的なモデリング技術を含め、現在および将来の推薦アーキテクチャを反映する。
MLPerf Recommendation Advisory Board による年次レビュー体制を確立し、産業界および学術界の動向に基づいてベンチマークを精錬する。

実験結果

リサーチクエスチョン

RQ1大規模データセンター環境における実世界の推薦ワークロードを最もよく反映するのはどのモデルアーキテクチャとデータ特性か？
RQ2低遅延要件の候補生成から、複雑なランク付けモデルに至るまで、推薦タスクの全範囲を反映できるように、ベンチマークをどのように設計できるか？
RQ3トレーニングおよびインファレンスワークロードのシステムレベル評価に意味のある結果を得るには、どの程度のデータスケールとスパarsityレベルが必要か？
RQ4まれなアイテムに大きなメモリおよび最適化リソースを要する長尾問題を、どのようにベンチマークが支援できるか？
RQ5注目される技術としてのアテンション機構、因子分解マシン、マルチアームドバンディットの技術が、今後のベンチマーク進化において果たすべき役割は何か？

主な発見

Criteo Kaggleデータセットは、スパarsityが高く産業的関連性も高いことから、MovieLensよりも実際の生産環境ユースケースをよりよく反映している。
モデルアーキテクチャは、低遅延要件を満たす候補生成（latency-sensitive）と、高相互作用複雑性を要するランク付け（high-interaction complexity）の両方をサポートする必要がある。
データセットにはユーザー特徴量とアイテム特徴量、相互作用データ（例：クリック、レーティング）を含め、実世界のデータ特性を反映するためパワーロー分布に従うべきである。
ベンチマークは、1特徴量あたり最大1億以上のカテゴリと、100億～1000億件のトレーニング例をサポートするモデルを想定する必要がある。
アテンション層、ディープクロスネットワーク、ペairwise特徴量クロスングの導入は、現代の推薦システムの複雑性を捉えるために不可欠である。
進化するシステム最適化ニーズおよび新規研究トレンドに合わせてベンチマークを最新化するため、アドバイザリーボードによる年次レビュー体制は、極めて重要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。