[論文レビュー] Evaluating and Mitigating Discrimination in Language Model Decisions
本論文は、70の仮想プロンプトを70のシナリオで用いて言語モデルの意思決定における差別リスクを積極的に評価する枠組みを提示し、Claude 2.0を分析し、差別を減らすためのプロンプトベースの緩和策を導入する。
As language models (LMs) advance, interest is growing in applying them to high-stakes societal decisions, such as determining financing or housing eligibility. However, their potential for discrimination in such contexts raises ethical concerns, motivating the need for better methods to evaluate these risks. We present a method for proactively evaluating the potential discriminatory impact of LMs in a wide range of use cases, including hypothetical use cases where they have not yet been deployed. Specifically, we use an LM to generate a wide array of potential prompts that decision-makers may input into an LM, spanning 70 diverse decision scenarios across society, and systematically vary the demographic information in each prompt. Applying this methodology reveals patterns of both positive and negative discrimination in the Claude 2.0 model in select settings when no interventions are applied. While we do not endorse or permit the use of language models to make automated decisions for the high-risk use cases we study, we demonstrate techniques to significantly decrease both positive and negative discrimination through careful prompt engineering, providing pathways toward safer deployment in use cases where they may be appropriate. Our work enables developers and policymakers to anticipate, measure, and address discrimination as language model capabilities and applications continue to expand. We release our dataset and prompts at https://huggingface.co/datasets/Anthropic/discrim-eval
研究の動機と目的
- 倫理的懸念を動機づけ、LMsがハイリスクの決定を下すことを是正する。
- 多様なユースケースにわたる差別を測定するためのスケーラブルな方法を開発する。
- デプロイ前に正と負の差別の双方を積極的に検出できるようにする。
- 決定品質を維持しつつ差別を低減するためのプロンプトベースの介入を提供する。
- 再現性と政策立案者の利用を支援するデータセットとプロンプトを公開する。
提案手法
- 96の特定トピックで70の多様な意思決定プロンプトを生成してLMの意思決定を検証する。
- 差別を測定するために明示的および暗黙的な人口属性でプロンプトを埋める。
- ベースラインとして白人60歳男性を用い、logit(p_norm(yes))を差別スコアとして計算する。
- 固定効果(年齢、性別、人種)とランダム効果(意思決定タイプ)をモデル化する混合効果線形回帰を使用する。
- テンプレートの人間評価(平均評価4.76/5)を通じてプロンプト品質を検証する。
- 頑健性と緩和効果を評価するためにプロンプトの変 variationsおよび介入を実験する。
実験結果
リサーチクエスチョン
- RQ1多様な領域を横断する仮想的な高リスク意思決定プロンプトにおいてLMsは差別を示すことがあるか。
- RQ2明示的な人口統計信号と暗黙的信号は観測される差別パターンにどのように影響するか。
- RQ3プロンプトベースの緩和は意思決定の有用性を損なわずに差別を大幅に低減できるか。
- RQ4プロンプトのフォーマットやスタイルの変化に対して差別パターンは頑健であるか。
- RQ5差別を減らすことと元のモデルの意思決定との相関を維持する際の効果的なトレードオフは何か。
主な発見
- Claude 2.0は、人口統計が明示されている場合、女性、ノンバイナリー、非白人グループに対して正の差別を、年齢が高い場合にはいくつかの設定で負の差別を示す。
- 人口統計が名前から推測される場合は差別は小さくなるが依然として存在する。
- 差別パターンは意思決定タイプが異なる場合でも大筋で一貫しており、多くのケースで人種と性別の効果は非白人および非男性グループを優遇する。
- プロンプトベースの介入は差別を実質的に低減でき、Illegal to discriminateとIgnore demographicsは低い差別スコアと元の意思決定との高い相関を得られる。
- 一部の介入は意思決定の有用性の最小限の損失で差別を減らす可能性があるが、影響はスタイルとプロンプトの実 formulatedにより異なる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。