Skip to main content
QUICK REVIEW

[論文レビュー] Guess Who Rated This Movie: Identifying Users Through Subspace Clustering

Amy Zhang, Nadia Fawaz|arXiv (Cornell University)|Aug 7, 2012
Bayesian Methods and Mixture Models参考文献 14被引用数 44
ひとこと要約

本論文は、サブスパイスクラスタリングを用いて、レコメンデーションシステムにおける1つのアカウントを複数のユーザーが共有している状況を、教師なしで同定する手法を提案する。複合アカウントを線形部分空間の和としてモデル化し、70%の複合アカウントが40%の誤検出率で同定され、60%以上のケースで映画が正しくユーザーに割り当てられる。これにより、ユーザー情報が事前に与えられていなくても、パーソナライズドレコメンデーションの精度が著しく向上する。

ABSTRACT

It is often the case that, within an online recommender system, multiple users share a common account. Can such shared accounts be identified solely on the basis of the user- provided ratings? Once a shared account is identified, can the different users sharing it be identified as well? Whenever such user identification is feasible, it opens the way to possible improvements in personalized recommendations, but also raises privacy concerns. We develop a model for composite accounts based on unions of linear subspaces, and use subspace clustering for carrying out the identification task. We show that a significant fraction of such accounts is identifiable in a reliable manner, and illustrate potential uses for personalized recommendation.

研究の動機と目的

  • 1つのアカウントを複数のユーザーが共有しているかどうかを、レコメンデーションシステム内の集団的レーティングのみから同定できるかを検証すること。
  • ユーザーID情報が事前に与えられていない状態で、複合アカウントを同定し、個々のユーザーのレーティングを別々に割り当てる手法を開発すること。
  • ユーザー同定の影響がパーソナライズドレコメンデーションの精度に与える影響を評価すること。
  • 現実世界のレコメンデーションシステムにおいて、このような同定がプライバシーに与える影響を評価すること。

提案手法

  • 複合アカウントを低次元の線形部分空間の和としてモデル化し、各ユーザーのレーティング行動が別個の部分空間に属するとみなす。
  • Maら(2008年)のサブスパイスクラスタリングアルゴリズム(例:)を適用し、レーティングベクトルを個々のユーザーに対応する部分空間にグループ化する。
  • 複合性の検出のための統計的仮説検定と、1アカウントあたりのユーザー数の推定のためのモデル選択手順を開発する。
  • EMスタイルのアルゴリズムに正則化を施したリッジ回帰を用いて、クラスタリングされた部分空間から個々のユーザーのプロファイルを学習する。
  • 共有プロファイル(Single)とユーザー固有プロファイル(EM)を合成する凸結合(CNV)手法を提案し、推薦性能の向上を図る。
  • RMSEとオーバーラップ指標を用いて予測精度を評価するため、実データセット(例:CAMRa2011)を用いて5分割交差検証を実施する。

実験結果

リサーチクエスチョン

  • RQ1ユーザーが提供したレーティングのみを用いて、補助情報なしに複合アカウントを信頼性高く同定できるか。
  • RQ2複合アカウントを共有する個々のユーザーが、その集団的レーティングパターンからどれほど正確に同定できるか。
  • RQ3現実世界のデータセットにおいて、ユーザー同定がパーソナライズドレコメンデーションのパフォーマンスにどのように寄与するか。
  • RQ4レコメンデーションシステムにおける共有アカウントの背後にあるユーザーを同定することは、どのようなプライバシー的影響を及ぼすか。

主な発見

  • 単一ユーザーと複合アカウントが混在するデータセットにおいて、選択されたサブセットSでは70%の複合アカウントが正しく同定された一方、Sに含まれる40%のアカウントは単一ユーザーのものであった。
  • 同定された複合アカウントにおいて、60%を超える映画がその対応するユーザーに正しく割り当てられ、統計的に有意であった(p < 0.05)。
  • 500本以上の映画をレーティングした54,000人のNetflixユーザーのデータセットにおいて、4,072人の複合ユーザーが高信頼度で同定された。
  • EM手法は単一プロファイルベースラインより14%高いオーバーラップ指標を達成したが、レーティングの類似性が強い影響を及ぼしたため、RMSEではわずかに劣った。
  • 凸結合(CNV)手法が最も優れた全体的なパフォーマンスを示し、共有プロファイルと個別プロファイルの両方の利点を組み合わせた。
  • ユーザーのマッピングが事前に分かっているオラクル手法は最良のパフォーマンス(平均RMSE 0.60、オーバーラップ1.87)を達成し、ユーザー同定が推薦精度を顕著に向上させることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。