QUICK REVIEW

[論文レビュー] Quantifying and Reducing Stereotypes in Word Embeddings

Tolga Bolukbasi, Kai-Wei Chang|OpenBU (Boston University)|Jun 20, 2016

Hate Speech and Cyberbullying Detection参考文献 13被引用数 62

ひとこと要約

本稿では、米国在住のターカーを対象としたクラウドソーシングと、ジェンダー類似性タスクを組み合わせることで、単語埋め込みにおけるジェンダーステレオタイプを定量化および低減する新規手法を提案する。この手法は、意味的類似性や類似性タスクの性能に最小限の影響を及ぼすように、バイアスを除去するデバイアス化アルゴリズムを導入しており、ジェンダーステレオタイプの分散を90%まで低減しながら、下流タスクの精度を維持している。

ABSTRACT

Machine learning algorithms are optimized to model statistical properties of the training data. If the input data reflects stereotypes and biases of the broader society, then the output of the learning algorithm also captures these stereotypes. In this paper, we initiate the study of gender stereotypes in {\em word embedding}, a popular framework to represent text data. As their use becomes increasingly common, applications can inadvertently amplify unwanted stereotypes. We show across multiple datasets that the embeddings contain significant gender stereotypes, especially with regard to professions. We created a novel gender analogy task and combined it with crowdsourcing to systematically quantify the gender bias in a given embedding. We developed an efficient algorithm that reduces gender stereotype using just a handful of training examples while preserving the useful geometric properties of the embedding. We evaluated our algorithm on several metrics. While we focus on male/female stereotypes, our framework may be applicable to other types of embedding biases.

研究の動機と目的

事前学習済み単語埋め込みにおけるジェンダーステレオタイプを、特に職業に関連して体系的に定量化すること。
意味的有用性を損なわず、スケーラブルにバイアスを低減する手法を開発すること。
ステレオタイプ的関連（例：看護師：女性）が、定義的関連（例：姉：女性）と分離可能かどうかを評価すること。
デバイアス化後も埋め込み空間の幾何的構造を保持することにより、標準的NLPベンチマークでの性能が継続的に維持されること。

提案手法

ステレオタイプ的および非ステレオタイプ的類似性ペアを生成するためのジェンダー類似性タスクを提案し、それを米国在住のターカーによるクラウドソーシングで検証する。
埋め込み空間内の対比較距離を保持しながらバイアスを最小化する変換行列Tを学習するための半定値計画法（SDP）定式化を導入する。
大規模な埋め込みにおける計算複雑性を低減するため、背景語行列Aに対する特異値分解（SVD）を用い、効率的な最適化を可能にする。
ステレオタイプ的語（例：看護師、マネージャー）の投影が「彼：彼女」方向に最小限になるように、語ベクトルに変換Tを適用し、それらがジェンダー方向に直交するようにする。
目的関数にハイパーパrameter λ を用いてバイアス低減と距離保持のバランスを図る：min ||AXAᵀ − AAᵀ||²_F + λ||PXBᵀ||²_F。
種まき語（例：マネージャー、看護師）の少数を用いてバイアス方向を定義し、変換を全埋め込み行列に適用する。

実験結果

リサーチクエスチョン

RQ1事前学習済み単語埋め込みは、職業的役割に関して、どれほど有害なジェンダーステレオタイプを内蔵しているのか。
RQ2ステレオタイプ的関連（例：女性：家庭内労働者）は、非ステレオタイプ的意味的関係（例：女性：姉）と体系的に分離可能か。
RQ3わずか数個のトレーニング例のみを用いて、単語埋め込みのジェンダーバイアスを低減可能か。その際、意味的・構文的タスクの性能が劣化しないか。
RQ4デバイアス化変換は、元の埋め込み空間の幾何的構造を保持するか。

主な発見

元の埋め込みにおけるジェンダー・ステレオタイプ語の「彼：彼女」方向への分散は0.02から、デバイアス化後は0.001に低下し、バイアスが90%低減された。
ジェンダー・ステレオタイプに関連しない背景語は、分散にほとんど変化がなかった（0.005（前）vs. 0.0055（後））、これにより非バイアス語の意味的構造が保持されていることが確認された。
デバイアス化された埋め込みは、標準ベンチマークで性能を維持またはわずかに向上させた：RGスコアは0.761から0.764に、WS353は0.700から0.700に、RWは0.471から0.472に、MSR-analogyは0.712から0.712に上昇した。
本手法は、彼：労働者 :: 彼女：看護師のようなステレオタイプ的類似性を効果的に低減した一方で、彼：実存主義者 :: 彼女：フェミニストのような非ステレオタイプ的類似性は保持した。
SVDに基づく次元削減により、大規模な埋め込み（例：40万語）に対しても、計算的に実行可能であることが示された。
クラウドソーシングによる評価から、アルゴリズムがバイアスを効果的に除去するとともに、下流NLPタスクにおける意味的整合性と有用性を維持していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。