QUICK REVIEW

[論文レビュー] Beyond Factual Correctness: Mitigating Preference-Inconsistent Explanations in Explainable Recommendation

Chengkai Wang, Baisong Liu|arXiv (Cornell University)|Mar 3, 2026

Explainable Artificial Intelligence (XAI)被引用数 0

ひとこと要約

PUREは、事実的に根拠があるがユーザーの嗜好と一致する証拠を生成前に選択する嗜好認識的推論フレームワークであり、嗜好の不一致と事実的幻覚を減少させつつ、強力な推奨品質を維持します。

ABSTRACT

LLM-based explainable recommenders can produce fluent explanations that are factually correct, yet still justify items using attributes that conflict with a user's historical preferences. Such preference-inconsistent explanations yield logically valid but unconvincing reasoning and are largely missed by standard hallucination or faithfulness metrics. We formalize this failure mode and propose PURE, a preference-aware reasoning framework following a select-then-generate paradigm. Instead of only improving generation, PURE intervenes in evidence selection, it selects a compact set of multi-hop item-centric reasoning paths that are both factually grounded and aligned with user preference structure, guided by user intent, specificity, and diversity to suppress generic, weakly personalized evidence. The selected evidence is then injected into LLM generation via structure-aware prompting that preserves relational constraints. To measure preference inconsistency, we introduce a feature-level, user-centric evaluation metric that reveals misalignment overlooked by factuality-based measures. Experiments on three real-world datasets show that PURE consistently reduces preference-inconsistent explanations and factual hallucinations while maintaining competitive recommendation accuracy, explanation quality, and inference efficiency. These results highlight that trustworthy explanations require not only factual correctness but also justification aligned with user preferences.

研究の動機と目的

Explainable recommendationにおける説明が事実的には正確だがユーザー嗜好と一致しない（嗜好の不一致）という明確な課題を特定する。
知識グラフに基づく嗜好認識的な多段推論アプローチを証拠選択段階で介入させるPUREを提案する。
嗜好整合性のある証拠へ焦点を当てることで、説明の忠実度を向上させつつ推奨性能を損なわないことを示す。
ユーザ中心の観点から事実的幻覚と嗜好一貫性の指標を特徴レベルで定義する。

提案手法

1ホップの明示的特徴、2ホップの関係推論、3ホップの暗黙的嗜好パスを組み込んだ構造強化セマンティックインデックスを3ホップで構築する。
ユーザー履歴を注意機構で処理し、ターゲット項目に特化した証拠選択を実現するターゲット認識的ユー INTENTモデルを適用する。
ノード特異性を構造・意味・嗜好信号を統合したマルチビュースコアで計算し、特異性を意識した目的関数でパスを剪定する。
多様性を意識したリランキング（MMR）を適用して、多様な正当化要素のカバレージを確保する。
グラフベースの証拠とLLM入力をソフト（グラフ）とハード（テキスト）プロンプトで統合する構造認識型プロンプティングにより、説明を生成する。グラフ表現と説明出力を整合させるジョイントLLM目的関数を用いる。

Figure 1. Illustration of factuality hallucinations and preference inconsistency in LLM-based explainable recommendation, and our work.

実験結果

リサーチクエスチョン

RQ1RQ1: PUREは説明品質・信頼性・ランキング性能で最先端のベースラインと比較してどうか。
RQ2RQ2: 構造強化インデクシング、嗜好認識取得、構造保存生成という PURE の構成要素は全体の有効性にどの程度寄与するか。
RQ3RQ3: 事実性と嗜好一貫性の指標を含む主要ハイパーパラメータが忠実度と説明性に与える影響はどうか。
RQ4RQ4: 推論効率は競合手法と比べてどうか。
RQ5RQ5: 提案する嗜好レベル指標（P-EHR）は人間の嗜好一貫性判断と相関があるか。

主な発見

Dataset	Model	Faithfulness	Explainability	Text Quality	Ranking Accuracy	F-EHR	P-EHR	FMR	FCR	DIV	BLEU-4	ROUGE-L	HR@5	NDCG@5
Book	KG-Flat	0.445	0.581	0.092	0.051	0.445	0.581	0.092	0.051	2.735	0.851	12.452	0.535	0.402
Book	LLMXRec	0.386	0.514	0.125	0.184	0.386	0.514	0.125	0.184	1.925	1.153	15.211	0.574	0.421
Book	LLM2ER	0.352	0.498	0.138	0.245	0.352	0.498	0.138	0.245	1.552	1.172	16.689	0.482	0.348
Book	PEPLER	0.411	0.555	0.113	0.275	0.411	0.555	0.113	0.275	2.106	1.095	14.855	0.405	0.285
Book	G-Refer	0.112	0.455	0.155	0.352	0.112	0.455	0.155	0.352	2.415	0.985	13.926	0.441	0.308
Book	MAPLE	0.295	0.421	0.105	0.195	0.295	0.421	0.105	0.195	2.528	0.612	10.546	0.332	0.225
Book	PURE	0.098*	0.168*	0.168	0.328	0.098*	0.168*	0.168	0.328	1.265*	1.254*	17.244*	0.552	0.379
Movies & TV	KG-Flat	0.385	0.512	0.065	0.042	0.385	0.512	0.065	0.042	2.615	0.925	13.158	0.548	0.436
Movies & TV	LLMXRec	0.315	0.455	0.095	0.155	0.315	0.455	0.095	0.155	1.855	1.152	14.854	0.591	0.468
Movies & TV	LLM2ER	0.295	0.425	0.125	0.198	0.295	0.425	0.125	0.198	1.765	1.193	17.176	0.505	0.396
Movies & TV	PEPLER	0.355	0.495	0.072	0.293	0.355	0.495	0.072	0.293	2.712	1.053	13.952	0.432	0.405
Movies & TV	G-Refer	0.095	0.315	0.105	0.245	0.095	0.315	0.105	0.245	2.355	1.015	13.552	0.275	0.248
Movies & TV	MAPLE	0.255	0.385	0.085	0.165	0.255	0.385	0.085	0.165	2.415	0.685	11.256	0.342	0.305
Movies & TV	PURE	0.082*	0.145*	0.135*	0.282	0.082*	0.145*	0.135*	0.282	1.415*	1.315*	16.454	0.573	0.459
Yelp	KG-Flat	0.551	0.682	0.074	0.061	0.551	0.682	0.074	0.061	1.954	1.215	15.555	0.475	0.412
Yelp	LLMXRec	0.489	0.512	0.111	0.243	0.489	0.512	0.111	0.243	1.658	1.481	17.153	0.688	0.482
Yelp	LLM2ER	0.463	0.591	0.127	0.285	0.463	0.591	0.127	0.285	1.585	1.523	16.827	0.628	0.408
Yelp	PEPLER	0.526	0.467	0.082	0.322	0.526	0.467	0.082	0.322	1.685	0.732	12.551	0.565	0.442
Yelp	G-Refer	0.186	0.552	0.147	0.355	0.186	0.552	0.147	0.355	2.154	1.357	16.252	0.592	0.375
Yelp	MAPLE	0.324	0.359	0.091	0.184	0.324	0.359	0.091	0.184	2.258	0.585	12.157	0.495	0.362
Yelp	PURE	0.073*	0.121*	0.155*	0.367*	0.073*	0.121*	0.155*	0.367*	1.355*	1.453	18.554*	0.669	0.474

PUREは3データセットで忠実度指標（F-EHRとP-EHR）でベースラインを上回り、事実的幻覚と嗜好不一致を低減した。
PUREは最先端のP-EHRを達成し、F-EHRの大幅な低減と競争的なHR@5およびNDCG@5を維持して、ランキング性能を保持した。
PUREはベースラインと比較してテキスト品質と多様性（BLEU-4、ROUGE-L、DIV）で優れる。
ケーススタディで、説明とユーザー嗜好の整合性がベースラインより明確であることを示した。
データセット全体で、嗜好一貫性のある説明の統計的に有意な改善を示しつつ、推奨精度も競合的であった。

Figure 2. Overview of PURE. It contains five components: Structure-Enhanced Semantic Indexing, Target-Aware User Intent, Specificity-Aware Pruning, MMR Diversity Reranking, and Preference-Aware Explainable Recommendation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。