[論文レビュー] Dialect prejudice predicts AI decisions about people's character, employability, and criminality
本論文は、複数の言語モデルにおける covert dialect prejudice を明らかにするために Matched Guise Probing を開発し、人種が明示的に述べられていなくてもこの偏見が雇用・犯罪性判断に影響を与えることを示します。
Hundreds of millions of people now interact with language models, with uses ranging from serving as a writing aid to informing hiring decisions. Yet these language models are known to perpetuate systematic racial prejudices, making their judgments biased in problematic ways about groups like African Americans. While prior research has focused on overt racism in language models, social scientists have argued that racism with a more subtle character has developed over time. It is unknown whether this covert racism manifests in language models. Here, we demonstrate that language models embody covert racism in the form of dialect prejudice: we extend research showing that Americans hold raciolinguistic stereotypes about speakers of African American English and find that language models have the same prejudice, exhibiting covert stereotypes that are more negative than any human stereotypes about African Americans ever experimentally recorded, although closest to the ones from before the civil rights movement. By contrast, the language models' overt stereotypes about African Americans are much more positive. We demonstrate that dialect prejudice has the potential for harmful consequences by asking language models to make hypothetical decisions about people, based only on how they speak. Language models are more likely to suggest that speakers of African American English be assigned less prestigious jobs, be convicted of crimes, and be sentenced to death. Finally, we show that existing methods for alleviating racial bias in language models such as human feedback training do not mitigate the dialect prejudice, but can exacerbate the discrepancy between covert and overt stereotypes, by teaching language models to superficially conceal the racism that they maintain on a deeper level. Our findings have far-reaching implications for the fair and safe employment of language technology.
研究の動機と目的
- 言語モデルが、Explicit race ではなく方言の特徴によって活性化される covert raciolinguistic stereotypes を保持しているかを調査する。
- Matched Guise Probing を開発・適用し、モデルと設定を横断して方言偏見を検出する。
- 方言偏見が雇用と刑事司法の文脈で AI の判断に如何に影響するかを評価する。
- 一般的なバイアス緩和戦略(スケーリング、 humans feedback) が covert dialect prejudice を低減するかを評価する。
提案手法
- Matched Guise Probing を導入し、 overt race の言及なしに AAE と SAE のテキストの予測を比較する。
- 意味一致/非意味一致のプロンプトを横断して、複数のモデル(GPT2、RoBERTa、T5、GPT3.5、GPT4)を分析する。
- Princeton Trilogy の研究からの人間のステレオタイプと対比して、AAE に関連する形容詞を順位付けすることにより covert stereotypes を測定する。
- AAE話者とSAE話者に職業を対応づけ、名声の相関を調べることによって雇用可能性を評価する。
- AAE発話とSAE発話について、裁判を模擬し有罪判決率と死刑判決率を算出して犯罪性を評価する。
- overt と covert のステレオタイプに対するスケーリングと人間のフィードバックの影響を検討する。
実験結果
リサーチクエスチョン
- RQ1言語モデルは、明示的な人種情報に依らず、AAE の特徴によって引き起こされる covert dialect prejudice を示すか。
- RQ2言語モデルにおける covert ステレオタイプと overt ステレオタイプはどのように比較され、歴史的な人間のステレオタイプとどのように整合するか。
- RQ3方言ベースのバイアスは就業および刑事司法の場面でAIの判断に影響を与えるか。
- RQ4モデルのスケーリングや人間のフィードバックによるトレーニングは covert dialect prejudice を緩和できるか。
主な発見
- 言語モデルにおけるAAEに関する covert stereotypes は1930年代の古い人間のステレオタイプと一致し、実験的に記録された現代の人間のステレオタイプのいずれよりも否定的である。
- いくつかのモデルにおけるアフリカ系アメリカ人に関する overt ステレオタイプは肯定的であり、特に人間のフィードバックで訓練されたモデルで顕著で、 covert と overt のバイアス間の不整合を生み出している。
- 雇用タスクでは、AAE 発話を低名誉職業と結びつけ、SAE との関連を高く見なし、AAE話者の職業的評価を低下させると予測する。
- 犯罪性タスクでは、AAE 発話の方が有罪判決率や死刑選択率が高い。
- モデルのスケーリングは covert dialect prejudice を高める(AAE の理解向上にもかかわらず)一方 overt prejudice を低減する。人間のフィードバック訓練は overt のポジティブ性を高めるが、covert prejudice を減らさない。
- 人間のフィードバックは overt ステレオタイプを減らすが、covert ステレオタイプはほぼ変わらず、いくつかのモデルで covert-overta ギャップを拡大させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。