QUICK REVIEW

[論文レビュー] Evaluating Metrics for Bias in Word Embeddings

Sarah Schröder, Alexander Schulz|arXiv (Cornell University)|Nov 15, 2021

Natural Language Processing Techniques被引用数 7

ひとこと要約

本稿では、WEAT や Direct Bias、MAC などの既存の指標に理論的欠陥があるのを是正する新しいコサインベースのバイアス指標である SAME（Scoring Association Means of Word Embeddings）を提案する。SAME はバイアス指標に望ましいとされる性質を形式的に定義し、それらを満たすことを証明している。実験を通じて、特にサブセット選択やスケュー（偏り）・ステレオタイプの区別において、既存手法を上回るバイアス検出性能を示している。

ABSTRACT

Over the last years, word and sentence embeddings have established as text preprocessing for all kinds of NLP tasks and improved the performances significantly. Unfortunately, it has also been shown that these embeddings inherit various kinds of biases from the training data and thereby pass on biases present in society to NLP solutions. Many papers attempted to quantify bias in word or sentence embeddings to evaluate debiasing methods or compare different embedding models, usually with cosine-based metrics. However, lately some works have raised doubts about these metrics showing that even though such metrics report low biases, other tests still show biases. In fact, there is a great variety of bias metrics or tests proposed in the literature without any consensus on the optimal solutions. Yet we lack works that evaluate bias metrics on a theoretical level or elaborate the advantages and disadvantages of different bias metrics. In this work, we will explore different cosine based bias metrics. We formalize a bias definition based on the ideas from previous works and derive conditions for bias metrics. Furthermore, we thoroughly investigate the existing cosine-based metrics and their limitations to show why these metrics can fail to report biases in some cases. Finally, we propose a new metric, SAME, to address the shortcomings of existing metrics and mathematically prove that SAME behaves appropriately.

研究の動機と目的

WEAT や Direct Bias、MAC のようなコサインベースのバイアス指標に内在する理論的欠陥を特定すること。
単語埋め込みの文脈において意味のあるバイアススコア関数のための数学的要件を形式化すること。
すべての形式化された要件を満たし、信頼性と比較可能性を向上させる新しいバイアス指標 SAME を提案すること。
BERT モデルを偏りのあるデータで再訓練した制御実験を用いて、SAME を既存指標と比較して実証的に検証すること。
スケューとステレオタイプのバイアスを別々に区別し、解釈可能性と検出精度を高めること。

提案手法

ベクトル空間における幾何的関係に基づくバイアス定義を形式化し、コサイン類似度をコア測度として焦点を当てる。
バイアス指標に必要な4つの形式的要件を定義する：比較可能性、信頼性、バイアスへの感受性、置換不変性。
既存指標（WEAT、Direct Bias、MAC）をこれらの要件に基づいて分析し、理論的欠陥を露呈する。
SAME を WEAT のコアアイデアの再定式化として提案する。グループベースの比較を平均ベースの関連スコアに置き換える。
SAME を多属性バイアスに対応させるための拡張を施し、スケュー（平均偏差）とステレオタイプ（標準偏差）のための別々のバージョンを導入する。
BERT を偏りのあるデータで再訓練することでバイアスの真値を生成し、その後、指標のバイアス検出能力を評価する制御実験を実施する。

実験結果

リサーチクエスチョン

RQ1WEAT や Direct Bias、MAC のような広く使われているコサインベースのバイアス指標に、どのような理論的欠陥が存在するか？
RQ2バイアス指標を形式的に定義することで、異なる埋め込み間で信頼性と比較可能性を保証できるか？
RQ3すべての形式的要件を満たし、スケューとステレオタイプの両方のバイアス検出を向上させる新しい指標を構築できるか？
RQ4SAME はサブセット選択やデータの置換といった現実世界の条件下で、どのようにバイアス検出性能を示すか？
RQ5スケューとステレオタイプの指標は、単語埋め込みにおけるバイアスの異なる側面を補完的に捉えるのにどの程度有効か？

主な発見

WEAT や Direct Bias、MAC といった既存指標は、構造的欠陥のため、特に比較可能性と信頼性という重要な理論的要件を満たしていない。
SAME は単語バイアスの平均における真値バイアスと有意に相関（r = 0.21）を示し、これにより他のすべての指標を上回る性能を示した。
SAME はサブセット選択に対して優れたロバスト性を示し、WEAT よりも平均バイアス差が10倍も低く、データサンプリングの変動に強い安定性を示した。
SAME のステレオタイプ版は、マスク解除バイアス（unmasking bias）と有意に相関（p < 0.05）を示し、ステレオタイプ的関連性の検出において WEAT や他の指標を上回った。
SAME のスケュー版は唯一、平均バイアスとの有意な相関を示した。これは、体系的な方向性バイアスを検出する独自の能力を示している。
既存のコサインベースの指標は、すべてのバイアス形態を完全に捉えていない。したがって、下流タスクの公平性指標を併用した補完的評価の必要性が浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。