[論文レビュー] Tenrec: A Large-scale Multipurpose Benchmark Dataset for Recommender Systems
Tenrecは、Tencentによる大規模でマルチシナリオのベンチマークデータセットで、4つの重複するシナリオにわたって複数のタイプのユーザーフィードバックを可能にし、多様なレコメンダーシステムタスクと転移学習を評価します。 本論文は、再現性のためのデータ、コード、リーダーボードを10タスクにわたって公開します。
Existing benchmark datasets for recommender systems (RS) either are created at a small scale or involve very limited forms of user feedback. RS models evaluated on such datasets often lack practical values for large-scale real-world applications. In this paper, we describe Tenrec, a novel and publicly available data collection for RS that records various user feedback from four different recommendation scenarios. To be specific, Tenrec has the following five characteristics: (1) it is large-scale, containing around 5 million users and 140 million interactions; (2) it has not only positive user feedback, but also true negative feedback (vs. one-class recommendation); (3) it contains overlapped users and items across four different scenarios; (4) it contains various types of user positive feedback, in forms of clicks, likes, shares, and follows, etc; (5) it contains additional features beyond the user IDs and item IDs. We verify Tenrec on ten diverse recommendation tasks by running several classical baseline models per task. Tenrec has the potential to become a useful benchmark dataset for a majority of popular recommendation tasks.
研究の動機と目的
- 現実世界のユーザーフィードバックの多様性を反映した、スケールの大きい多目的RSベンチマークの必要性を動機づける。
- 4つのシナリオにまたがる重複するユーザー/アイテムと複数のフィードバックタイプを備えた公開データセットスイートとしてTenrecを紹介する。
- ベースラインモデルを用いて10の多様な推薦タスクを評価することでTenrecの有用性を示す。
- 再現性とコミュニティのベンチマーキングを促進するために、公開コード、データ、リーダーボードを提供する。
提案手法
- 四つのシナリオ(QK-video、QK-article、QB-video、QB-article)にまたがるTencent QK/QBプラットフォームから、約500万人のユーザーと約1.4億のインタラクションを収集する。
- クリック、いいね、シェア、フォロー、閲覧、お気に入りなどの複数のポジティブフィードバックタイプと、実際のネガティブフィードバック(行動なしの露出)を含む。
- ID以外のユーザー/アイテム特徴を組み込み、重複するユーザー/アイテムを介してクロスドメインおよび転移学習実験を可能にする。
- 古典的なベースラインと標準スプリット(8:1:1)を用いて、10のタスク(CTR予測、セッションベースの推薦、マルチタスク学習、クロスドメイン推奨、ユーザープロフィール予測、コールドスタート、生涯ユーザー表現、モデル圧縮、トレーニングスピードアップ、推論スピードアップ)を評価する。
- 各シナリオ向けのデータ形式を、プライバシー保護されたデセンサライズ特徴とタイムスタンプの削除とともに提供し、再現性のためにデータセット、コード、リーダーボードを公開する。
実験結果
リサーチクエスチョン
- RQ1Tenrecは従来の単一タスクデータセットを超える複数のRSタスクの総合的なベンチマークとして機能し得るか。
- RQ2Tenrecの重複するユーザー/アイテムで評価した場合、クロスドメイン・マルチタスク・転移学習手法の性能はどうなるか。
- RQ3現実世界の大規模RSデータにおけるモデル圧縮、学習高速化、推論高速化の利点とトレードオフは何か。
- RQ4実世界のフィードバックタイプ(ネガティブフィードバックを含む)が、1クラスフィードバックデータセットに対してCTRとランキング性能をどの程度改善するか。
- RQ5Tenrecは多様なRSタスクにおける再現性の高い評価と公平性をどのように促進できるか。
主な発見
- Tenrecは10の異なるタスクの評価を可能にし、多様なフィードバック、クロスドメイン、転移学習実験をサポートする。
- ベースラインモデルはタスク全体で競争力のある性能を達成しており、Tenrecはデータソースとしてだけでなくベンチマークとしての適性を示している。
- より大きなTenrecサブセットからの事前学習と転移学習は、関連タスクおよびコールドスタートシナリオの性能を向上させる。
- CpRecによるモデル圧縮は、精度の最小限の低下でパラメータを大幅に削減できる。
- トレーニング速度向上と推論速度向上の手法(StackRec、SkipRec)は、性能の低下が限定的またはほぼない状態で計算量とレイテンシを大幅に削減する。
- 重複するユーザー/アイテムと多タイプのフィードバックは、実世界データ上でのクロスドメイン、 lifelong表現、マルチタスク学習の研究を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。