QUICK REVIEW

[論文レビュー] Collaborative Filtering and the Missing at Random Assumption

Benjamin M. Marlin, Richard S. Zemel|arXiv (Cornell University)|Jun 20, 2012

Recommender Systems and Techniques参考文献 10被引用数 186

ひとこと要約

この論文は、共同フィルタリングにおける標準的な欠損ランダム（MAR）仮定に挑戦し、ユーザーの評価がしばしばランダムに欠損しないこと——つまり、ユーザーの楽曲に対する意見が、彼らが楽曲を評価するかどうかに影響を与えること——を示している。オンラインラジオサービスにおけるユーザー調査を通じて、欠損データ機構を明示的にモデル化することで、特にランダムな評価サンプルにおいて、レーティング予測性能が向上し、従来のMARに基づく手法を上回る推薦精度が得られることを示している。

ABSTRACT

Rating prediction is an important application, and a popular research topic in collaborative filtering. However, both the validity of learning algorithms, and the validity of standard testing procedures rest on the assumption that missing ratings are missing at random (MAR). In this paper we present the results of a user study in which we collect a random sample of ratings from current users of an online radio service. An analysis of the rating data collected in the study shows that the sample of random ratings has markedly different properties than ratings of user-selected songs. When asked to report on their own rating behaviour, a large number of users indicate they believe their opinion of a song does affect whether they choose to rate that song, a violation of the MAR condition. Finally, we present experimental results showing that incorporating an explicit model of the missing data mechanism can lead to significant improvements in prediction performance on the random sample of ratings.

研究の動機と目的

現実世界の共同フィルタリングシステムにおいて、欠損ランダム（MAR）仮定が成立するかどうかを調査すること。
特に、楽曲に対するユーザーの意見が評価意思決定に与える影響によって、MAR仮定の妥当性がどのように影響を受けるかを検討すること。
欠損データ機構を明示的にモデル化することで、レーティング予測性能が向上するかどうかを評価すること。
MARに基づくモデルと、非MARレーティング行動を考慮するモデルとの間で、予測性能を比較すること。

提案手法

オンラインラジオサービスのユーザーからランダムに抽出したレーティングのサンプルを用いて、ユーザーのレーティング行動に関するデータ収集のためのユーザー調査を実施した。
ユーザーが楽曲の評価を行うかどうかが、その楽曲に対する自身の意見に影響を受けるかどうかを、自己報告形式で収集した。
欠損データ機構を明示的に組み込んだ確率的モデルを構築し、レーティングの可能性をユーザーおよびアイテムの特徴の関数としてモデル化した。
収集したデータセットを用いて、MAR仮定と非MAR仮定の両方の下で、共同フィルタリングモデルを訓練および評価した。
尤度に基づくフレームワークを用いて欠損データプロセスを推定し、それをレーティング予測モデルに統合した。
標準的なMARに基づくモデルと、非MARレーティング行動を考慮するモデルとの間で、予測性能（例：RMSE）を比較した。

実験結果

リサーチクエスチョン

RQ1現実世界の共同フィルタリングシステムにおいて、欠損ランダム（MAR）仮定は妥当か？
RQ2ユーザーが楽曲に対して持つ意見は、その楽曲を評価する意思決定にどの程度影響を及ぼすか？
RQ3欠損データ機構をモデル化することで、レーティング予測性能が向上するか？
RQ4MARに基づくモデルと、非MARレーティング行動を考慮するモデルとの間で、予測性能にどのような差が生じるか？

主な発見

多くのユーザーが、楽曲に対する自身の意見が評価の有無に影響を与えると報告しており、これはMAR仮定に反する。
本調査で収集したランダムなレーティングサンプルは、ユーザーが選択した楽曲のレーティングと比べて顕著に異なる統計的性質を示した。
欠損データ機構を明示的にモデル化することで、ランダムレーティングサンプルにおける予測性能に顕著な改善が得られた。
MAR仮定が破られている状況において、予測精度の向上が最も顕著に観察されたことから、レーティング行動プロセスをモデル化することが重要であることが示された。
標準的な共同フィルタリング手法が、非無視可能な欠損データを伴う現実世界の設定では偏りや非最適性を示す可能性があるという示唆が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。