[论文解读] Beyond Factual Correctness: Mitigating Preference-Inconsistent Explanations in Explainable Recommendation
PURE 是一个偏好感知的推理框架,在生成解释之前选择事实基础且符合用户偏好的证据,从而减少偏好不一致和事实性幻觉,同时保持强烈的推荐质量。
LLM-based explainable recommenders can produce fluent explanations that are factually correct, yet still justify items using attributes that conflict with a user's historical preferences. Such preference-inconsistent explanations yield logically valid but unconvincing reasoning and are largely missed by standard hallucination or faithfulness metrics. We formalize this failure mode and propose PURE, a preference-aware reasoning framework following a select-then-generate paradigm. Instead of only improving generation, PURE intervenes in evidence selection, it selects a compact set of multi-hop item-centric reasoning paths that are both factually grounded and aligned with user preference structure, guided by user intent, specificity, and diversity to suppress generic, weakly personalized evidence. The selected evidence is then injected into LLM generation via structure-aware prompting that preserves relational constraints. To measure preference inconsistency, we introduce a feature-level, user-centric evaluation metric that reveals misalignment overlooked by factuality-based measures. Experiments on three real-world datasets show that PURE consistently reduces preference-inconsistent explanations and factual hallucinations while maintaining competitive recommendation accuracy, explanation quality, and inference efficiency. These results highlight that trustworthy explanations require not only factual correctness but also justification aligned with user preferences.
研究动机与目标
- 在可解释推荐中识别一个独特的失败模式:解释在事实上正确但与用户偏好不一致(偏好不一致性)。
- 提出 PURE,在证据选择阶段介入,采用基于知识图谱的偏好感知多跳推理方法。
- 证明专注于偏好一致的证据能够在不牺牲推荐性能的前提下提升解释的可信度。
- 引入特征级度量来从用户角度量化事实性幻觉和偏好不一致性。
提出的方法
- 构建一个结构增强的语义索引,具备 1 跳显式特征、2 跳关系推理、3 跳隐式偏好路径,最多 3 跳。
- 进行目标感知的用户意图建模,使用对用户历史的注意力机制将证据定制到具体目标项目。
- 通过多视角分数计算节点特异性,整合结构、语义和偏好信号,并以特异性为导向的目标来 prune 路径。
- 应用覆盖性多样化重新排序(MMR),确保覆盖多样的解释要素。
- 通过结构感知提示生成解释,将基于图的证据与大语言模型输入相融合,采用软提示(图)和硬文本提示,通过一个联合的 LLM 目标使图表示与解释输出保持一致。

实验结果
研究问题
- RQ1RQ1: 在解释质量、可信度和排序性能方面,PURE 与最先进基线相比如何?
- RQ2RQ2: PURE 的组件(结构增强索引、偏好感知检索、保持结构的生成)对整体效果的贡献是什么?
- RQ3RQ3: 关键超参数如何影响可信度和可解释性,包括事实性和偏好一致性的度量?
- RQ4RQ4: 相对竞争方法,PURE 的推理效率表现如何?
- RQ5RQ5: 提出的偏好级别度量(P-EHR)是否与人类对偏好一致性的判断相关?
主要发现
| 数据集 | 模型 | 可信度 | 可解释性 | 文本质量 | 排序准确性 | F-EHR | P-EHR | FMR | FCR | DIV | BLEU-4 | ROUGE-L | HR@5 | NDCG@5 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Book | KG-Flat | 0.445 | 0.581 | 0.092 | 0.051 | 0.445 | 0.581 | 0.092 | 0.051 | 2.735 | 0.851 | 12.452 | 0.535 | 0.402 |
| Book | LLMXRec | 0.386 | 0.514 | 0.125 | 0.184 | 0.386 | 0.514 | 0.125 | 0.184 | 1.925 | 1.153 | 15.211 | 0.574 | 0.421 |
| Book | LLM2ER | 0.352 | 0.498 | 0.138 | 0.245 | 0.352 | 0.498 | 0.138 | 0.245 | 1.552 | 1.172 | 16.689 | 0.482 | 0.348 |
| Book | PEPLER | 0.411 | 0.555 | 0.113 | 0.275 | 0.411 | 0.555 | 0.113 | 0.275 | 2.106 | 1.095 | 14.855 | 0.405 | 0.285 |
| Book | G-Refer | 0.112 | 0.455 | 0.155 | 0.352 | 0.112 | 0.455 | 0.155 | 0.352 | 2.415 | 0.985 | 13.926 | 0.441 | 0.308 |
| Book | MAPLE | 0.295 | 0.421 | 0.105 | 0.195 | 0.295 | 0.421 | 0.105 | 0.195 | 2.528 | 0.612 | 10.546 | 0.332 | 0.225 |
| Book | PURE | 0.098* | 0.168* | 0.168 | 0.328 | 0.098* | 0.168* | 0.168 | 0.328 | 1.265* | 1.254* | 17.244* | 0.552 | 0.379 |
| Movies & TV | KG-Flat | 0.385 | 0.512 | 0.065 | 0.042 | 0.385 | 0.512 | 0.065 | 0.042 | 2.615 | 0.925 | 13.158 | 0.548 | 0.436 |
| Movies & TV | LLMXRec | 0.315 | 0.455 | 0.095 | 0.155 | 0.315 | 0.455 | 0.095 | 0.155 | 1.855 | 1.152 | 14.854 | 0.591 | 0.468 |
| Movies & TV | LLM2ER | 0.295 | 0.425 | 0.125 | 0.198 | 0.295 | 0.425 | 0.125 | 0.198 | 1.765 | 1.193 | 17.176 | 0.505 | 0.396 |
| Movies & TV | PEPLER | 0.355 | 0.495 | 0.072 | 0.293 | 0.355 | 0.495 | 0.072 | 0.293 | 2.712 | 1.053 | 13.952 | 0.432 | 0.405 |
| Movies & TV | G-Refer | 0.095 | 0.315 | 0.105 | 0.245 | 0.095 | 0.315 | 0.105 | 0.245 | 2.355 | 1.015 | 13.552 | 0.275 | 0.248 |
| Movies & TV | MAPLE | 0.255 | 0.385 | 0.085 | 0.165 | 0.255 | 0.385 | 0.085 | 0.165 | 2.415 | 0.685 | 11.256 | 0.342 | 0.305 |
| Movies & TV | PURE | 0.082* | 0.145* | 0.135* | 0.282 | 0.082* | 0.145* | 0.135* | 0.282 | 1.415* | 1.315* | 16.454 | 0.573 | 0.459 |
| Yelp | KG-Flat | 0.551 | 0.682 | 0.074 | 0.061 | 0.551 | 0.682 | 0.074 | 0.061 | 1.954 | 1.215 | 15.555 | 0.475 | 0.412 |
| Yelp | LLMXRec | 0.489 | 0.512 | 0.111 | 0.243 | 0.489 | 0.512 | 0.111 | 0.243 | 1.658 | 1.481 | 17.153 | 0.688 | 0.482 |
| Yelp | LLM2ER | 0.463 | 0.591 | 0.127 | 0.285 | 0.463 | 0.591 | 0.127 | 0.285 | 1.585 | 1.523 | 16.827 | 0.628 | 0.408 |
| Yelp | PEPLER | 0.526 | 0.467 | 0.082 | 0.322 | 0.526 | 0.467 | 0.082 | 0.322 | 1.685 | 0.732 | 12.551 | 0.565 | 0.442 |
| Yelp | G-Refer | 0.186 | 0.552 | 0.147 | 0.355 | 0.186 | 0.552 | 0.147 | 0.355 | 2.154 | 1.357 | 16.252 | 0.592 | 0.375 |
| Yelp | MAPLE | 0.324 | 0.359 | 0.091 | 0.184 | 0.324 | 0.359 | 0.091 | 0.184 | 2.258 | 0.585 | 12.157 | 0.495 | 0.362 |
| Yelp | PURE | 0.073* | 0.121* | 0.155* | 0.367* | 0.073* | 0.121* | 0.155* | 0.367* | 1.355* | 1.453 | 18.554* | 0.669 | 0.474 |
- PURE 在三个数据集的可信度度量(F-EHR 和 P-EHR)上领先基线,减少事实性幻觉和偏好不一致性。
- PURE 达到最先进的 P-EHR 水平并显著降低 F-EHR,同时保持竞争性的 HR@5 和 NDCG@5,表明排序性能保持稳定。
- PURE 在文本质量和多样性方面优于基线(BLEU-4、ROUGE-L、DIV)。
- 一个案例研究显示,PURE 的解释与用户偏好之间的对齐更加清晰,而基线依赖于通用证据。
- 在不同数据集上,PURE 在偏好一致性解释方面具有统计显著的提升,同时保持有竞争力的推荐准确性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。