[論文レビュー] Uncertainty and Fairness Awareness in LLM-Based Recommendation Systems
論文は予測的不確実性と人口統計/人格バイアスがLLMベースの推奨にどう影響するかを分析し、Gemini 1.5を用いた不確実性対応の公正性ベンチマークを導入し、人格認知型の公正性フレームワークを提案します。
Large language models (LLMs) enable powerful zero-shot recommendations by leveraging broad contextual knowledge, yet predictive uncertainty and embedded biases threaten reliability and fairness. This paper studies how uncertainty and fairness evaluations affect the accuracy, consistency, and trustworthiness of LLM-generated recommendations. We introduce a benchmark of curated metrics and a dataset annotated for eight demographic attributes (31 categorical values) across two domains: movies and music. Through in-depth case studies, we quantify predictive uncertainty (via entropy) and demonstrate that Google DeepMind's Gemini 1.5 Flash exhibits systematic unfairness for certain sensitive attributes; measured similarity-based gaps are SNSR at 0.1363 and SNSV at 0.0507. These disparities persist under prompt perturbations such as typographical errors and multilingual inputs. We further integrate personality-aware fairness into the RecLLM evaluation pipeline to reveal personality-linked bias patterns and expose trade-offs between personalization and group fairness. We propose a novel uncertainty-aware evaluation methodology for RecLLMs, present empirical insights from deep uncertainty case studies, and introduce a personality profile-informed fairness benchmark that advances explainability and equity in LLM recommendations. Together, these contributions establish a foundation for safer, more interpretable RecLLMs and motivate future work on multi-model benchmarks and adaptive calibration for trustworthy deployment.
研究の動機と目的
- RecLLMsにおける信頼性と公正性の補助としての不確定性量化を動機づける。
- プロンプト変化と人口統計属性がLLM推奨の公正性へ与える影響を調査する。
- RecLLMsの不確実性対応評価フレームワークを開発・適用する。
- 人格条件付きプロンプトを導入してバイアスパターンを研究する。
- 公正性と説明可能性を向上させるベンチマークと手法を提案する。
提案手法
- LLMベースのランキング出力におけるエントロピーを用いて予測的不確実性を定量化する。
- 映画と音楽にまたがる8つの人口統計属性(計31値)を含む curated データセットを構築する。
- 人口統計信号と人格シグナルを含む公正性プロンプトを設計して出力の変動性を測定する。
- 中立的プロンプトとセンシティブなプロンプトの両方でGemini 1.5 Flashの公正性と不確実性を評価する。
- 類似度ベースの不公平さ指標 SNSR および SNSV、人格プロンプトの PA公正スコア(PAFS)を計算する。
- プロンプトのタイプミスや多言語プロンプトなどのプロンプト撹乱への頑健性を分析し、ドメイン固有のバイアスを報告する。

実験結果
リサーチクエスチョン
- RQ1RQ1: 予測的不確実性(エントロピー)はLLMベースの推奨の信頼性にどのように影響するか。
- RQ2RQ2: 複数属性の人口統計とプロンプト撹乱に対するLLM推奨の公正性格差はどれくらい頑健か。
- RQ3RQ3: 人格認知型プロンプティングはバイアスパターンをどう露呈し、個人化とグループ公正性の間のトレードオフをどう示すか。
主な発見
- 予測エントロピーが高いほど推奨の信頼性が低い。
- Geminiは音楽および映画の領域でいくつかのセンシティブ属性に対して系統的な不公平を示し、SNSRとSNSVは格差を定量化する(例:表3に示されたSNSR/SNSV値)。
- プロンプト撹乱(タイポ、多言語プロンプト)下でも不公平パターンは継続する。
- 人格認知型プロンプトはバイアスパターンを明らかにし、個人化とグループ公正性のトレードオフを強調する。
- 提案された不確実性対応評価フレームワークは、より頑健で解釈可能な公正性評価をもたらす。
- 不公平性はドメインと属性に特有であり、宗教、大陸、職業、国などが特に影響を受ける属性として挙げられる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。