QUICK REVIEW

[论文解读] Information Theoretic Counterfactual Learning from Missing-Not-At-Random Feedback

Zifeng Wang, Xi Chen|arXiv (Cornell University)|Sep 6, 2020

Domain Adaptation and Few-Shot Learning参考文献 37被引用 28

一句话总结

本文提出了一种无需随机对照试验（RCT）的反事实学习框架——反事实变分信息瓶颈（CVIB），通过信息论正则化，在缺失非随机（MNAR）反馈场景下，平衡模型在观测结果（事实）与未观测结果（反事实）之间的性能表现。通过将信息瓶颈中的任务感知项分解为事实与反事实两部分，CVIB引入了对比信息损失与置信度惩罚，显著提升了在真实推荐数据集上的泛化能力，且无需昂贵的随机对照试验。

ABSTRACT

Counterfactual learning for dealing with missing-not-at-random data (MNAR) is an intriguing topic in the recommendation literature since MNAR data are ubiquitous in modern recommender systems. Missing-at-random (MAR) data, namely randomized controlled trials (RCTs), are usually required by most previous counterfactual learning methods for debiasing learning. However, the execution of RCTs is extraordinarily expensive in practice. To circumvent the use of RCTs, we build an information-theoretic counterfactual variational information bottleneck (CVIB), as an alternative for debiasing learning without RCTs. By separating the task-aware mutual information term in the original information bottleneck Lagrangian into factual and counterfactual parts, we derive a contrastive information loss and an additional output confidence penalty, which facilitates balanced learning between the factual and counterfactual domains. Empirical evaluation on real-world datasets shows that our CVIB significantly enhances both shallow and deep models, which sheds light on counterfactual learning in recommendation that goes beyond RCTs.

研究动机与目标

解决现实推荐系统中因非均匀选择策略导致的缺失非随机（MNAR）反馈问题，即观测到的用户反馈存在偏差。
克服传统反事实评估所需随机对照试验（RCT）的不切实际性，这些试验虽能提供无偏评估，但部署成本过高。
开发一种表示学习方法，通过平衡事实与反事实领域之间的信息量，使模型在未观测结果上具有良好泛化能力。
提供一种理论基础坚实的、无需RCT的替代方案，以替代依赖外部无偏数据收集的倾向得分与领域自适应方法。

提出的方法

通过将任务感知互信息项拆分为事实与反事实两部分，扩展变分信息瓶颈（VIB）框架。
引入一种对比信息正则化项，促使模型表示在事实与反事实结果上均保持同等信息量。
引入输出置信度惩罚，防止模型在观测事件上产生过度自信的预测。
使用变分推断优化所得的CVIB目标函数，实现在无RCT访问条件下的MNAR数据端到端训练。
将原始IB拉格朗日函数分解为事实与反事实项，显式建模观测与未观测反馈之间的权衡。
使用对比损失最小化观测与未观测结果之间在表示质量上的差异，促进平衡的泛化。

实验结果

研究问题

RQ1我们能否在无需依赖昂贵随机对照试验（RCT）进行无偏数据收集的前提下，实现在推荐系统中的有效反事实学习？
RQ2在MNAR反馈设置下，如何平衡模型在观测（事实）与未观测（反事实）结果上的性能表现？
RQ3哪些信息论正则化方法可在无法获取真实未观测反馈的情况下，提升模型对反事实结果的泛化能力？
RQ4在真实数据集上，所提出的CVIB框架与现有依赖RCT的方法相比，在公平性、准确性和鲁棒性方面表现如何？

主要发现

所提出的CVIB框架在无需RCT的前提下，显著提升了浅层与深层推荐模型的泛化能力。
实证评估表明，增加对比信息项系数α可提升测试AUC，证实其在平衡事实与反事实学习中的作用。
输出置信度惩罚γ有助于防止过拟合与欠拟合，尽管其对准确率指标的影响较弱。
尽管在YAHOO数据集上MSE更高，NCF-CVIB仍取得最佳AUC，表明在真实推荐任务中，排序质量（AUC）优先于回归准确率（MSE）。
该方法通过在事实与反事实领域间鼓励信息量的平衡，有效缓解了MNAR场景下的策略偏差。
该框架为基于RCT的去偏方法提供了可行替代方案，使在实际、数据受限环境中的鲁棒反事实学习成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。