Skip to main content
QUICK REVIEW

[論文レビュー] Benchmarking Bias in Large Language Models during Role-Playing

Xinyue Li, Zhenpeng Chen|arXiv (Cornell University)|Nov 1, 2024
Natural Language Processing Techniques被引用数 5
ひとこと要約

BiasLensは、ロールプレイ中にLLMの偏見を検出する自動公正性検査フレームワークで、11の属性を対象に33,000の偏見誘発質問を使用し、6つのモデルを評価し、72,716件の偏見的反応を報告します。著者はベンチマークと研究のためのスクリプトを公開します。

ABSTRACT

Large Language Models (LLMs) have become foundational in modern language-driven applications, profoundly influencing daily life. A critical technique in leveraging their potential is role-playing, where LLMs simulate diverse roles to enhance their real-world utility. However, while research has highlighted the presence of social biases in LLM outputs, it remains unclear whether and to what extent these biases emerge during role-playing scenarios. In this paper, we introduce BiasLens, a fairness testing framework designed to systematically expose biases in LLMs during role-playing. Our approach uses LLMs to generate 550 social roles across a comprehensive set of 11 demographic attributes, producing 33,000 role-specific questions targeting various forms of bias. These questions, spanning Yes/No, multiple-choice, and open-ended formats, are designed to prompt LLMs to adopt specific roles and respond accordingly. We employ a combination of rule-based and LLM-based strategies to identify biased responses, rigorously validated through human evaluation. Using the generated questions as the benchmark, we conduct extensive evaluations of six advanced LLMs released by OpenAI, Mistral AI, Meta, Alibaba, and DeepSeek. Our benchmark reveals 72,716 biased responses across the studied LLMs, with individual models yielding between 7,754 and 16,963 biased responses, underscoring the prevalence of bias in role-playing contexts. To support future research, we have publicly released the benchmark, along with all scripts and experimental results.

研究の動機と目的

  • ロールプレイがLLMの出力に社会的偏見を誘発するかを評価する。
  • ロールプレイシナリオ向けの自動公正性検査フレームワーク(BiasLens)を開発する。
  • 複数の人口統計属性にまたがる大規模な偏見ベンチマークを構築し公開する。
  • 6つの主要LLMにわたる偏見の発生率を評価し、ロールプレイの効果と非決定性を分析する。

提案手法

  • GPT-4oを用いて、11の人口統計属性にまたがる550の社会的役割を生成する。
  • 各役割について、自動的に60の質問(Yes/No、Choice、Why)を生成し、合計33,000問となり、後に32,864問に剪定する。
  • テスト Oracleを設計する:Yes/NoおよびChoiceはルールベース、Whyの質問はLLMベースの多数決投票。
  • 各質問につき6つのLLMを3回照会し、多数の回答(3件中2件以上)で偏見を分類する。
  • 公開用のオープンベンチマーク、スクリプト、および実験結果を提供する。
Figure 1. Examples of biased responses from GPT4o-mini and Llama3-70b during role-playing. Each question was queried independently on each model three times, and consistent responses were obtained across all queries for each model on October 1, 2024.
Figure 1. Examples of biased responses from GPT4o-mini and Llama3-70b during role-playing. Each question was queried independently on each model three times, and consistent responses were obtained across all queries for each model on October 1, 2024.

実験結果

リサーチクエスチョン

  • RQ1RQ1: BiasLensはロールプレイ中のLLMの偏見を暴露する上でどれだけ効果的か?
  • RQ2RQ2: BiasLensで暴露された偏見は、手動評価で決定されたとおり有効か?
  • RQ3RQ3: 役割が割り当てられていない場合、ロールプレイ中に観察された偏見は持続するか?
  • RQ4RQ4: LLMの非決定性は公正性テストの結果にどう影響するか?

主な発見

  • ベンチマークは六つのLLMにわたって72,716件の偏見反応を特定する。
  • 個々のモデルは7,754件から16,963件の偏見反応を生み出す。
  • Llama-3-8Bは6つのモデルの中で最も高い偏見数を示す(16,963)。
  • ロールプレイ文を削除すると、偏見反応が平均24.3%減少する。
  • モデルの偏見レベルは、外部リーダーボードの総合的能力ランキングと必ずしも一致しない。
Figure 2. Overview of BiasLens.
Figure 2. Overview of BiasLens.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。