QUICK REVIEW

[論文レビュー] Self-supervised Learning for Deep Models in Recommendations.

Tiansheng Yao, Xinyang Yi|arXiv (Cornell University)|Jul 25, 2020

Topic Modeling参考文献 38被引用数 33

ひとこと要約

本論文は、大規模な語彙のカテゴリカル特徴空間における埋め込み品質を向上させるために、2つの新しいタスク—特徴マスキング（FM）と特徴ドロップアウト（FD）—を導入したマルチタスク自己教師あり学習（SSL）フレームワークを提案する。5億および10億の例を含む2つの大規模データセットで評価された結果、教師あり学習のみや最先端の正則化手法よりも顕著に優れた性能を示し、特に教師データが少ない状況で顕著である。

ABSTRACT

Large scale neural recommender models play a critical role in modern search and recommendation systems. To model large-vocab categorical features, typical recommender models learn a joint embedding space for both queries and items. With millions to billions of items to choose from, the quality of learned embedding representations is crucial to provide high quality recommendations to users with various interests. Inspired by the recent success in self-supervised representation learning (SSL) research in both computer vision and natural language understanding, we propose a multi-task self-supervised learning framework for neural models in recommendations. Furthermore, we propose two self-supervised tasks applicable to models with categorical features within the proposed framework: (i) Feature Masking (FM) and (ii) Feature Dropout (FD). We evaluate our framework using two large-scale datasets with ~500M and 1B training examples respectively. Our results demonstrate that the proposed framework outperforms learning with the supervision task only and other state-of-the-art regularization techniques in the context of retrieval. The SSL framework shows larger improvement with less supervision compared to the counterparts.

研究の動機と目的

大語彙のカテゴリカル特徴を対象とした深層ニューラルレコメンダーにおける学習済み埋め込み表現の品質を向上させること。
大規模レコメンデーションシステムにおける限られた教師データの課題を、自己教師あり学習（SSL）を活用することで解決すること。
レコメンデーションモデルにおけるカテゴリカル特徴に特化した効果的なSSLタスクを設計すること。
教師あり学習や既存の正則化技術と比較して、SSLが優れた性能を発揮することを示すこと、特にラベル付きデータが限られる状況で顕著である。

提案手法

教師ありレコメンデーションタスクと自己教師ありタスクを同時に最適化するマルチタスクSSLフレームワークを提案する。
特徴マスキング（FM）を導入し、ランダムにマスキングされたカテゴリカル特徴を文脈からモデルが予測する。
特徴ドロップアウト（FD）を導入し、トレーニング中にランダムにカテゴリカル特徴を削除し、残りの特徴からモデルがそれらを再構築する。
同じ入力のポジティブおよびネガティブなビューを、異なるマスキングまたはドロップアウトパターンの下で対比学習の原則に従って一致させる。
クエリとアイテムを共有空間に同時に埋め込む深層ニューラルレコメンダーにこのフレームワークを適用する。
教師あり学習と2つの提案された自己教師ありタスクの両方を用いて、エンドツーエンドでモデルを訓練し、一般化性能と表現品質を向上させる。

実験結果

リサーチクエスチョン

RQ1自己教師あり学習は、大語彙のカテゴリカル特徴を有する深層レコメンデーションモデルにおける埋め込み表現の品質を向上させることができるか？
RQ2提案された自己教師ありタスクである特徴マスキングと特徴ドロップアウトは、レコメンデーションシステムにおけるより良い表現学習にどのように寄与するか？
RQ3提案されたSSLフレームワークは、教師あり学習のみと比較して優れた性能を示すか、特にラベル付きデータが限られる状況で顕著か？
RQ4このフレームワークは、検索性能において最先端の正則化技術と比較して優れているか？

主な発見

提案されたSSLフレームワークは、5億および10億のトレーニング例を含む2つの大規模データセットにおいて、教師ありタスクのみで学習した場合よりも優れた性能を示した。
ベースライン手法と比較して、教師データが少ない状況での改善が顕著であり、より高いデータ効率性を示した。
特徴マスキングと特徴ドロップアウトは、欠損または破損した特徴に対して強い耐性をもたらすことで、表現学習を効果的に向上させた。
マルチタスクSSLフレームワークは、両方のデータセットで一貫して検索性能を向上させ、強力な一般化能力を示した。
教師データが限られる状況ではSSLの利点が顕著に現れ、データが不足するレコメンデーションシナリオにおける本フレームワークの潜在的価値を強調した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。