[论文解读] Bias in Knowledge Graphs - An Empirical Study with Movie Recommendation and Different Language Editions of DBpedia
本文研究了知识图谱的选择——特别是不同语言版本的DBpedia——对电影推荐系统性能和偏见的影响。通过在多个DBpedia版本上采用固定的RDF2vec推荐策略,研究揭示了显著的类型和国家特定偏见,性能在不同类型和知识图谱来源之间存在显著差异,表明知识图谱的选择与算法调优一样关键。
Public knowledge graphs such as DBpedia and Wikidata have been recognized as interesting sources of background knowledge to build content-based recommender systems. They can be used to add information about the items to be recommended and links between those. While quite a few approaches for exploiting knowledge graphs have been proposed, most of them aim at optimizing the recommendation strategy while using a fixed knowledge graph. In this paper, we take a different approach, i.e., we fix the recommendation strategy and observe changes when using different underlying knowledge graphs. Particularly, we use different language editions of DBpedia. We show that the usage of different knowledge graphs does not only lead to differently biased recommender systems, but also to recommender systems that differ in performance for particular fields of recommendations.
研究动机与目标
- 研究不同语言版本的DBpedia如何影响基于内容的电影推荐系统中的偏见与性能。
- 确定知识图谱选择(而非仅算法设计)是否塑造了推荐结果。
- 分析某些知识图谱是否更适合特定推荐任务或类型。
- 挑战推荐系统研究中固定单一知识图谱(如英文DBpedia)的常见做法。
提出的方法
- 采用RDF2vec嵌入的固定推荐策略,以隔离知识图谱的影响。
- 使用五个语言版本的DBpedia(en, de, fr, it, ru),其来源为相应语言的维基百科版本。
- 将MovieLens 1M数据集中的电影映射到每个DBpedia版本中的实体,以支持跨语言比较。
- 在每个知识图谱上训练并评估单一推荐系统,使用F1分数和类型特定性能指标。
- 通过比较推荐结果的类型和制作国家分布与数据集中的普遍性,分析偏见。
- 使用主成分分析(PCA)可视化技术,检查不同知识图谱在嵌入空间中的聚类和结构差异。
实验结果
研究问题
- RQ1特定DBpedia语言版本的选择如何影响电影推荐结果中的偏见?
- RQ2在使用不同知识图谱时,特定类型电影的推荐性能是否存在差异?
- RQ3源自不同维基百科版本的知识图谱在多大程度上反映了电影推荐中的文化或语言偏见?
- RQ4是否存在一个全球最优的知识图谱,还是性能在不同类型和目标受众之间存在显著差异?
主要发现
- 基于俄语DBpedia的推荐系统对动作、科幻和冒险类型表现出强烈偏见,与俄罗斯的类型流行趋势一致。
- 基于意大利语DBpedia的系统更倾向于推荐喜剧、惊悚和爱情片,反映出意大利的类型偏好。
- 性能在不同类型间差异显著:对于儿童电影,表现最佳的系统(法语DBpedia)F1得分为0.209,而表现最差的系统(俄语DBpedia)仅得0.064,低了三倍以上。
- 法语DBpedia为基础的系统在所评估的十种类型中,有五种表现最优,表明其为多样化推荐提供了最全面的背景知识。
- 尽管整体性能最低,基于俄语DBpedia的系统在犯罪类型上表现最佳(F1 = 0.121),凸显其在特定任务上的优势。
- 没有一个知识图谱在所有类型中均表现最优,表明知识图谱的选择与算法选择一样,对构建高效推荐系统具有同等关键性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。