[论文解读] Tenrec: A Large-scale Multipurpose Benchmark Dataset for Recommender Systems
Tenrec 是来自腾讯的一个大规模多场景基准数据集,能够在四个重叠场景中启用多种类型的用户反馈,以评估多样的推荐系统任务和迁移学习。本文发布数据、代码和排行榜,以实现对 10 个任务的可重复性。
Existing benchmark datasets for recommender systems (RS) either are created at a small scale or involve very limited forms of user feedback. RS models evaluated on such datasets often lack practical values for large-scale real-world applications. In this paper, we describe Tenrec, a novel and publicly available data collection for RS that records various user feedback from four different recommendation scenarios. To be specific, Tenrec has the following five characteristics: (1) it is large-scale, containing around 5 million users and 140 million interactions; (2) it has not only positive user feedback, but also true negative feedback (vs. one-class recommendation); (3) it contains overlapped users and items across four different scenarios; (4) it contains various types of user positive feedback, in forms of clicks, likes, shares, and follows, etc; (5) it contains additional features beyond the user IDs and item IDs. We verify Tenrec on ten diverse recommendation tasks by running several classical baseline models per task. Tenrec has the potential to become a useful benchmark dataset for a majority of popular recommendation tasks.
研究动机与目标
- 推动需要能反映真实世界用户反馈多样性的大规模、多用途推荐系统基准的必要性。
- 介绍 Tenrec 作为一个具有四个场景中重叠的用户/项目以及多种反馈类型的公开数据集套件。
- 通过对十个不同推荐任务进行基线模型评估来展示 Tenrec 的实用性。
- 提供公开的代码、数据和排行榜以促进可重复性与社区基准测试。
提出的方法
- 从腾讯 QK/QB 平台在四个场景(QK-video、QK-article、QB-video、QB-article)收集约 5 百万用户和约 1.4 亿次交互。
- 包含多种正向反馈类型(点击、喜欢、分享、关注、阅读、收藏)以及真实负反馈(没有行动的曝光)。
- 除了 IDs 之外还包含用户/项目特征,并通过重叠的用户/项目实现跨域和迁移学习实验。
- 在经典基线与标准划分(8:1:1)下评估十个任务(CTR 预测、基于会话的推荐、多任务学习、跨域推荐、用户画像预测、冷启动、终身用户表示、模型压缩、训练加速、推理加速)。
- 为每个场景提供隐私保护的去识别特征的数据格式,并移除时间戳;发布数据集、代码和排行榜以实现可重复性。
实验结果
研究问题
- RQ1Tenrec 是否可以作为一个全面的基准,用于多种推荐系统任务,而不仅仅是传统的单任务数据集?
- RQ2在 Tenrec 的重叠用户/项目上评估时,跨域、多任务和迁移学习方法的表现如何?
- RQ3在真实世界的大规模推荐系统数据上,模型压缩、训练加速和推理加速的收益与权衡是什么?
- RQ4引入真实反馈类型(包括负反馈)在多大程度上提升 CTR 和排序性能,相较于单类反馈数据集?
- RQ5Tenrec 如何促进在多样化推荐系统任务中的可重复评估与公平性?
主要发现
- Tenrec 实现了对十个不同任务的评估,并支持多样化的反馈、跨域和迁移学习实验。
- 基线模型在各任务上均表现出竞争力,表明 Tenrec 作为基准而不仅仅是数据源的适用性。
- 从更大 Tenrec 子集进行的预训练和迁移学习能提升相关任务和冷启动场景的性能。
- 通过 CpRec 的模型压缩在显著降低参数量的同时对精度的损失很小。
- 训练加速与推理加速技术(StackRec、SkipRec)在几乎不损失性能的前提下显著降低了计算量和延迟。
- 重叠的用户/项目和多类型反馈使得在真实世界数据上进行跨域、终身表示和多任务学习研究成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。