[論文レビュー] Bias Out-of-the-Box: An Empirical Analysis of Intersectional Occupational Biases in Popular Generative Language Models
この論文は、ジェンダーを宗教、性指向、民族、政治的信条、そして大陸名 originといった交差要素で組み合わせてGPT-2モデルをプロンプトし、出力を米国の労働市場データと比較することで、オブ・ザ・ボックスのGPT-2モデルにおける交差的職業バイアスを分析します。
The capabilities of natural language models trained on large-scale data have increased immensely over the past few years. Open source libraries such as HuggingFace have made these models easily available and accessible. While prior research has identified biases in large language models, this paper considers biases contained in the most popular versions of these models when applied `out-of-the-box' for downstream tasks. We focus on generative language models as they are well-suited for extracting biases inherited from training data. Specifically, we conduct an in-depth analysis of GPT-2, which is the most downloaded text generation model on HuggingFace, with over half a million downloads per month. We assess biases related to occupational associations for different protected categories by intersecting gender with religion, sexuality, ethnicity, political affiliation, and continental name origin. Using a template-based data collection pipeline, we collect 396K sentence completions made by GPT-2 and find: (i) The machine-predicted jobs are less diverse and more stereotypical for women than for men, especially for intersections; (ii) Intersectional interactions are highly relevant for occupational associations, which we quantify by fitting 262 logistic models; (iii) For most occupations, GPT-2 reflects the skewed gender and ethnicity distribution found in US Labor Bureau data, and even pulls the societally-skewed distribution towards gender parity in cases where its predictions deviate from real labor market observations. This raises the normative question of what language models should learn - whether they should reflect or correct for existing inequalities.
研究の動機と目的
- 一般に入手可能なオープンボックスな生成型言語モデルが、周縁化された集団を害する可能性のある交差的職業バイアスを示すかどうかを評価する。
- 性別と交差する保護属性がGPT-2の予測職業にどの程度影響するかを定量化する。
- GPT-2 の職業予測を米国の実世界の労働市場分布と比較し、一致または乖離を理解する。
- 生成モデルの交差的なバイアスを検証するためのデータ収集と分析プロトコルを提供する。
提案手法
- 特定のアイデンティティベースおよび名前ベースのプロンプトを用いて、テンプレートベースのデータ収集パイプラインでGPT-2の文完了を396K件生成する。
- Stanford CoreNLP NER を用いて生成文から職業を抽出し、職業トークンのワンホット頻度行列を構築する。
- 総呼び出しの0.25%の下限閾値を適用して頻繁な職業に分析を絞り、交差的相互作用項を含むロジスティック回帰モデルを適合させて p(job|X,Y) を予測する。
- ベースラインの参照グループ(男性)を使用し、女性および各交差カテゴリのダミー変数と相互作用項を含めて、追加の説明可能性を評価する。
- モデル予測を2019年の米国労働統計局の職業分布と比較し、人口統計的分布を考慮してスケーリング因子で予測を調整する。
- XLNet との整合性を確認し、top_k や temperature などのハイパーパラメータのアブレーションを行い、モデルの頑健性を評価する。
実験結果
リサーチクエスチョン
- RQ1交差属性(性別と民族、宗教、性指向、政治的信条、あるいは大陸名 origin)を組み合わせた属性が、GPT-2 のオブ・ザ・ボックス時の職業関連付けを意味的に変化させるか。
- RQ2これらの交差効果は、単なる性別のみの主効果を超えて、返される職業の予測力をどの程度高めるか。
- RQ3性別と民族の交差にわたるGPT-2の職業予測は、実世界の米国労働市場分布とどのように比較されるか。
主な発見
- GPT-2は、女性の職業関連が男性よりも多様性に欠け、よりステレオタイプ的であることを示し、交差する領域全体で女性の職業クラスタリングが高い。
- 262個のロジスティック回帰において、女性のダミー変数はしばしば有意で(特に民族と宗教で)、平均してMcFadden R2を約3.3パーセントポイント追加し、女性が予測の追加的な変動を説明することを示している。
- 相互作用は約1/3の回帰で有意で、交差領域ごとに影響が異なり、特定の組み合わせ(例:特定の民族や性指向を持つ女性)によって予測される職業が変化することを示唆している。
- 予測された性別-民族の職業分布は米国の人口割合と密接に一致する一方で、GPT-2は端点を過小評価し、上位職で女性のクラスタリングを過大に予測する傾向がある。
- ほとんどの職業でGPT-2は米国労働市場の偏りを反映しており、場合によっては性別の平等性へと動くことがあり、社会的偏見を反映すべきか訂正すべきかという規範的な問題を提起する。
- 米国データと比較すると、GPT-2はウェイトレスや看護師のような職業で女性を過剰予測し、極端に分離された役割では女性を過小予測しており、ステレオタイプ的な配分には傾くが必ずしも完全にずれているわけではないことを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。