QUICK REVIEW

[论文解读] Developing a Recommendation Benchmark for MLPerf Training and Inference

Carole-Jean Wu, Robin Burke|arXiv (Cornell University)|Mar 16, 2020

Recommender Systems and Techniques参考文献 13被引用 22

一句话总结

本文提出了一种可扩展的、面向工业应用的推荐基准，用于 MLPerf Training 和 Inference，旨在通过整合多样化的模型架构、稀疏性、长尾物品分布以及多尺度数据集，反映现实世界中的电商工作负载。该基准明确了模型与数据的关键设计原则，强调端到端的点击率（CTR）与转化率预测，并建立了年度评审机制，以确保基准能够紧跟人工智能系统与推荐实践的演进。

ABSTRACT

Deep learning-based recommendation models are used pervasively and broadly, for example, to recommend movies, products, or other information most relevant to users, in order to enhance the user experience. Among various application domains which have received significant industry and academia research attention, such as image classification, object detection, language and speech translation, the performance of deep learning-based recommendation models is less well explored, even though recommendation tasks unarguably represent significant AI inference cycles at large-scale datacenter fleets. To advance the state of understanding and enable machine learning system development and optimization for the commerce domain, we aim to define an industry-relevant recommendation benchmark for the MLPerf Training andInference Suites. The paper synthesizes the desirable modeling strategies for personalized recommendation systems. We lay out desirable characteristics of recommendation model architectures and data sets. We then summarize the discussions and advice from the MLPerf Recommendation Advisory Board.

研究动机与目标

为 MLPerf Training 和 Inference 定义一个具有代表性、可扩展的推荐基准，以反映现实世界中的电商工作负载。
捕捉推荐用例的多样性，包括对延迟敏感的候选生成模型与对精度有不同要求的排序模型。
确保基准支持真实的数据特征，如稀疏性、幂律分布以及大规模特征集（最多 100M 个类别）。
指导模型架构与数据集的选择，以反映深度学习推荐在工业界与学术界当前及未来的发展趋势。
通过 MLPerf Recommendation Advisory Board 建立治理流程，实现基准的年度优化，确保其与不断演进的系统优化需求保持一致。

提出的方法

设计多尺度基准，包含小型、中型与大型配置，以反映不同系统工作负载与模型容量。
整合密集特征与稀疏特征（100–1000 个特征，比例为 50:50），每特征最多支持 100M 个类别，以反映工业级推荐系统。
采用真实世界的数据特征，如幂律分布与稀疏性，优先选用 Criteo Kaggle 等数据集，而非更密集的 MovieLens，以提升生产环境的真实性。
支持端到端的点击率（CTR）与转化率预测，以反映完整推荐流水线的需求。
包含先进的建模技术，如注意力层、Transformer、RNN 与因子分解机，以反映当前及新兴的推荐架构。
建立由 MLPerf Recommendation Advisory Board 参与的年度评审机制，根据产业与学术发展对基准进行持续优化。

实验结果

研究问题

RQ1哪些模型架构与数据特征最能代表大规模数据中心环境中真实世界的推荐工作负载？
RQ2如何设计基准，以反映从对延迟敏感的候选生成到复杂排序模型的完整推荐任务谱系？
RQ3需要多大的数据规模与稀疏性水平，才能实现对训练与推理工作负载的有意义的系统级评估？
RQ4如何使基准支持推荐中的长尾问题，即稀有物品需要大量内存与优化投入？
RQ5注意力机制、因子分解机与多臂赌博机等新兴技术在基准未来演进中应扮演何种角色？

主要发现

Criteo Kaggle 数据集相较于 MovieLens 更能代表真实生产用例，因其具有更高的稀疏性与工业相关性。
模型架构应同时支持候选生成（对延迟敏感）与排序（高交互复杂度），以反映端到端推荐流水线。
数据集应包含用户与物品特征、交互数据（如点击、评分），并遵循幂律分布，以反映真实世界的数据特征。
基准应支持每特征超过 100M 个类别的模型，以及 100–1000 亿个训练样本，以匹配大规模工业系统。
引入注意力层、深度交叉网络与成对特征交叉等先进技术，对于捕捉现代推荐系统复杂性至关重要。
通过顾问委员会实施的年度评审机制，对于确保基准与不断演进的系统优化需求及新兴研究趋势保持一致至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。