[论文解读] Visually Explainable Recommendation
论文通过在图像区域上的注意力来个性化可视化解释,并在多任务框架下加入评审信号(VECF 和 Re-VECF)来扩展。
Images account for a significant part of user decisions in many application scenarios, such as product images in e-commerce, or user image posts in social networks. It is intuitive that user preferences on the visual patterns of image (e.g., hue, texture, color, etc) can be highly personalized, and this provides us with highly discriminative features to make personalized recommendations. Previous work that takes advantage of images for recommendation usually transforms the images into latent representation vectors, which are adopted by a recommendation component to assist personalized user/item profiling and recommendation. However, such vectors are hardly useful in terms of providing visual explanations to users about why a particular item is recommended, and thus weakens the explainability of recommendation systems. As a step towards explainable recommendation models, we propose visually explainable recommendation based on attentive neural networks to model the user attention on images, under the supervision of both implicit feedback and textual reviews. By this, we can not only provide recommendation results to the users, but also tell the users why an item is recommended by providing intuitive visual highlights in a personalized manner. Experimental results show that our models are not only able to improve the recommendation performance, but also can provide persuasive visual explanations for the users to take the recommendations.
研究动机与目标
- 推动利用商品图片来提升个性化和可解释性在推荐中的作用。
- 开发基于注意力的视觉协同过滤模型(VECF),突出对用户个性化的图像区域。
- 通过文本评论增强模型,形成带有评论功能的版本(Re-VECF),提升准确性和解释性。
- 证明所提出的模型在Top-N推荐性能上有提升,并能生成具有说服力的视觉解释。
- 发布一个共标注数据集,并提供对视觉解释的定性/定量分析。
提出的方法
- 使用预训练的CNN(VGG-19)从商品图片中提取区域特征,以获得每张图片的196个区域向量。
- 计算区域级注意力权重alpha,形成在用户i和物品j条件下的全局图像特征IMAGE_j。
- 将物品潜在嵌入q_j与IMAGE_j融合,形成q_j^*,并用合适的PREDICT函数(例如点积的sigmoid)预测y^ij。
- 使用带正则化的二元交叉熵损失进行训练;对未观测的交互进行负采样。
- 在VECF基础上扩展一个基于GRU的文本模块,其中评论w_ij被生成/预测,并将IMAGE_j并入GRU门控以形成Re-VECF。
- 在Re-VECF中,引入门控机制以平衡基于图像的信号和基于文本的信号以进行词生成,使推荐和评论生成(ROUGE)作为多任务目标联合优化。
实验结果
研究问题
- RQ1RQ1 与基线相比,所提出的模型在Top-N推荐中的表现如何?
- RQ2RQ2 与基线相比,模型在预测用户评论(ROUGE)方面的表现如何?
- RQ3RQ3 通过高亮显示的图像区域和注意力权重提供视觉解释的效果如何?
主要发现
- 具备视觉感知的模型(VECF 与 Re-VECF)在Top-N指标上超过基于BPR的基线和单模态模型。
- 同时结合视觉特征和文本评论在基线中取得最佳表现(JRL作为强有力的竞争者)。
- 多任务的Re-VECF框架同时提升了推荐质量以及生成的视觉解释(通过注意力)和评论信号的质量。
- 模型能够通过放大物品图像中相关区域、依据学习到的注意力权重,生成直观、个性化的视觉解释。
- 在Amazon Clothing、Shoes and Jewelry数据集上的实验显示Top-N指标提升,以及跨用户/商品类别的ROUGE分数具有竞争力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。