Skip to main content
QUICK REVIEW

[論文レビュー] Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation

Jizhi Zhang, Keqin Bao|arXiv (Cornell University)|May 12, 2023
Topic Modeling参考文献 41被引用数 17
ひとこと要約

本論文は RecLLM の公正性のベンチマークである FaiRLLM を提案し、ChatGPT を評価して、音楽と映画の推奨において複数のユーザー感受性属性に対する不公正を明らかにする。

ABSTRACT

The remarkable achievements of Large Language Models (LLMs) have led to the emergence of a novel recommendation paradigm -- Recommendation via LLM (RecLLM). Nevertheless, it is important to note that LLMs may contain social prejudices, and therefore, the fairness of recommendations made by RecLLM requires further investigation. To avoid the potential risks of RecLLM, it is imperative to evaluate the fairness of RecLLM with respect to various sensitive attributes on the user side. Due to the differences between the RecLLM paradigm and the traditional recommendation paradigm, it is problematic to directly use the fairness benchmark of traditional recommendation. To address the dilemma, we propose a novel benchmark called Fairness of Recommendation via LLM (FaiRLLM). This benchmark comprises carefully crafted metrics and a dataset that accounts for eight sensitive attributes1 in two recommendation scenarios: music and movies. By utilizing our FaiRLLM benchmark, we conducted an evaluation of ChatGPT and discovered that it still exhibits unfairness to some sensitive attributes when generating recommendations. Our code and dataset can be found at https://github.com/jizhi-zhang/FaiRLLM.

研究の動機と目的

  • LLMs がユーザーの指示に基づいて推奨を生成する RecLLM パラダイムにおける公正性の懸念を喚起する。
  • 二つの領域(music、movies)における八つの機微属性の指標とデータセットを備えたベンチマークである FaiRLLM を提案する。
  • 公正性を評価するために、候補スコアを必要とせず中立的な指示と機微指示の類似性フレームワークを定義する。
  • ChatGPT を用いた再現可能な評価結果を提供し、偏りを明らかにし、緩和の方向性を提案する。

提案手法

  • 機微属性が提供されていない場合におけるユーザーグループへの偏見の不在を RecLLM の公正性の概念として定義する。
  • 中立指示と機微指示のバリエーションとの間の top-K 推奨類似度を計算する。
  • ランキングを考慮しつつ、中立リストと機微リストを比較する三つの類似度指標(Jaccard@K、SERP*@K、PRAG*@K)を導入する。
  • 機微属性値ごとの統合類似度の乖離を定量化する二つの公正性指標(SNSR@K、SNSV@K)を開発する。
  • 八つの機微属性値とテンプレートベースの指示形式を備えた二つのベンチマークデータセット(Music、Movie)を構築する。
  • top-K リストの生成における再現性を確保するために ChatGPT に対して貪欲デコード設定を用いる。

実験結果

リサーチクエスチョン

  • RQ1RQ1: 様々な機微属性にわたって推奨システムとして機能する場合、LLM はどれほど不公正か。
  • RQ2RQ2: 観測された不公正性は、プロンプトのタイプミスや異なる言語などの条件を跨いで頑健か。
  • RQ3RQ3: 公正性の指標は music と movie の領域で一貫したパターンを反映しているか。

主な発見

  • ChatGPT は music と movie の推奨の両方で複数の機微属性に対して不公正を示す。
  • 公正性指標 SNSR および SNSV は属性依存の不公正レベルを明らかにし、宗教、大陸、職業、国、人種などが影響の度合いを示す。
  • 推奨リストを異なる長さ(K)に切り捨てても不公正は持続する。
  • 機微属性値のタイプミスは、低所得層群への近さに応じて不公正を悪化させる場合も維持する場合もある。
  • 中国語プロンプトでも持続的な不公正が見られ、翻訳シナリオでは一部の領域(movie)で類似性が低くなる傾向を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。