[论文解读] Recommendations as Treatments: Debiasing Learning and Evaluation
本论文将推荐视为因果干预,在 MNAR 数据下对学习和评估进行去偏,提出基于倾向得分加权的估计量以及具有理论保证的可扩展矩阵分解方法,并具鲁棒的倾向估计。
Most data for evaluating and training recommender systems is subject to selection biases, either through self-selection by the users or through the actions of the recommendation system itself. In this paper, we provide a principled approach to handling selection biases, adapting models and estimation techniques from causal inference. The approach leads to unbiased performance estimators despite biased data, and to a matrix factorization method that provides substantially improved prediction performance on real-world data. We theoretically and empirically characterize the robustness of the approach, finding that it is highly practical and scalable.
研究动机与目标
- 通过将推荐作为因果推断中的干预来解决推荐系统数据中的选择偏差。
- 在 MNAR 条件下为常用指标(如 MAE、MSE、DCG)开发无偏估计量。
- 提出用于带偏的学习的经验风险最小化框架,并推导可扩展的矩阵分解方法。
- 研究倾向估计方法以及在倾向性估计错误指定时的鲁棒性。
提出的方法
- 使用倾向加权(IPS)和完整案例思想来为 MAE、MSE、DCG 及相关指标创建无偏估计量。
- 在倾向下制定经验风险最小化(ERM)目标并推导泛化界。
- 推导一个带有倾向分数的矩阵分解目标,与标准的不完整矩阵分解类似,但每个条目权重为 1/P_{u,i}。
- 引入 SNIPS,通过自归一化降低 IPS 的方差,在较小偏差与更低方差之间权衡。
- 区分实验设置(已知 P)与观测设置(估计 P),并分析对倾向错误指定的鲁棒性。
- 提供通过朴素贝叶斯和逻辑回归(含用户/项目偏置)估计倾向的方法。
实验结果
研究问题
- RQ1选择偏差如何扭曲推荐系统中的评估和学习?是否能通过因果推断技术获得无偏估计量?
- RQ2在 MNAR 数据下,基于倾向的估计量是否能实现对常用指标(MAE、MSE、DCG)的无偏评估?
- RQ3是否能开发一个可扩展的矩阵分解方法,在考虑选择偏差的同时保持性能?
- RQ4在观测设置中倾向性需要如何估计,且该方法对误指定的鲁棒性如何?
主要发现
| Row | MAE True | MAE IPS | MAE SNIPS | MAE Naive | DCG@50 True | DCG@50 IPS | DCG@50 SNIPS | DCG@50 Naive |
|---|---|---|---|---|---|---|---|---|
| REC_ONES | 0.102 | 0.102 ± 0.007 | 0.102 ± 0.007 | 0.011 ± 0.001 | 30.76 | 30.64 ± 0.75 | 30.66 ± 0.74 | 153.07 ± 2.13 |
| REC_FOURS | 0.026 | 0.026 ± 0.000 | 0.026 ± 0.000 | 0.173 ± 0.001 | 52.00 | 51.98 ± 0.41 | 52.08 ± 0.58 | 313.48 ± 2.36 |
| ROTATE | 2.579 | 2.581 ± 0.031 | 2.579 ± 0.012 | 1.168 ± 0.003 | 12.90 | 13.00 ± 0.85 | 12.99 ± 0.83 | 1.38 ± 0.09 |
| SKEWED | 1.306 | 1.304 ± 0.012 | 1.304 ± 0.009 | 0.912 ± 0.002 | 24.59 | 24.55 ± 0.92 | 24.58 ± 0.93 | 54.87 ± 1.03 |
| COARSENED | 1.320 | 1.314 ± 0.015 | 1.318 ± 0.005 | 0.387 ± 0.002 | 46.45 | 46.45 ± 0.53 | 46.44 ± 0.70 | 293.27 ± 1.99 |
- IPS 和 SNIPS 提供对 MAE 与 DCG 的无偏(IPS)或低方差的无偏估计(SNIPS),相较于在 MNAR 下有偏的朴素方法。
- 带倾向分数的 MF(MF-IPS)在半合成数据中对评分预测精度(MSE 更低)优于无权重的 MF,且在不同 MNAR 严重程度下表现稳定。
- 带倾向权重的经验风险最小化在有限假设空间下给出泛化保证。
- 即使倾向性估计不完美,估计的倾向性仍能提供无偏或鲁棒的评估与学习性能,通常优于朴素方法。
- 与最先进的联合似然 MNAR 方法相比,所提方法在真实数据集(Yahoo! R3 与 Coat Shopping)上更具可扩展性且具竞争力。
- 论文提供了实现细节和用于 MNAR 评估的基准数据集。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。