QUICK REVIEW

[論文レビュー] Racial Disparity in Natural Language Processing: A Case Study of Social Media African-American English

Su Lin Blodgett, Brendan O’Connor|arXiv (Cornell University)|Jun 30, 2017

Hate Speech and Cyberbullying Detection被引用数 60

ひとこと要約

本論はアフリカ系アメリカ人英語のツイートにおける言語識別の人種格差を実証的に分析し、複数の市販ツールやメッセージ長にわたって持続する精度ギャップを示している。

ABSTRACT

We highlight an important frontier in algorithmic fairness: disparity in the quality of natural language processing algorithms when applied to language from authors of different social groups. For example, current systems sometimes analyze the language of females and minorities more poorly than they do of whites and males. We conduct an empirical analysis of racial disparity in language identification for tweets written in African-American English, and discuss implications of disparity in NLP.

研究の動機と目的

方言と人種が言語処理性能に与える影響を調べることで、NLPにおける公正性を喚起する。
アフリカ系アメリカ人英語と白人寄りツイート文の言語識別精度の格差を定量化する。
メッセージ長を統制し、複数の商用およびオープンツールにおいて格差が持続するかを評価する。
下流のNLPタスクへの影響と、公正性を向上させる可能性のあるアプローチについて検討する。

提案手法

混合所属の人口統計ラベリングを持つ大規模な AA-ETwitter コーパスを使用して、AA系統とWhite系統のメッセージを識別する。
長さ別にビン分けした20,000ツイートで、4つの言語識別子（langid.py、IBM Watson、Microsoft Azure、Twitterメタデータ）を評価する。
各長さビン内でAA系統とWhite系統のメッセージ間の精度ギャップを算出する。
200件から20,000件のツイートへ分析を拡大し、格差の頑健性を検証する。

実験結果

リサーチクエスチョン

RQ1言語識別ツールは、AA系統とWhite系統のツイートで異なる精度を示すか？
RQ2メッセージ長は、異言語間の言語識別の精度と格差にどのような影響を与えるか？
RQ3格差はオープンソースと商用の言語識別子の間で一貫して存在するか？
RQ4これらの格差が下流のNLPタスクと公正性に与える影響は何か？

主な発見

すべての分類器は長いメッセージほど精度が高く、短いメッセージ（<10トークン）で最大の格差を示す。
オープンソースの langid.py は特に短いメッセージで顕著な格差を示し（最大19.7ポイント）。
IBM Watson は最も短い長さのビンで最大の格差を示し（15.1ポイント）。
Microsoft Azure は一般に格差が小さく、長いメッセージのビンでギャップが最も小さい（0.3–6.6ポイント）。
Twitter自体の識別器は最も短いビンで最大の格差（19.7ポイント）を示し、最も長いビンでは負の格差（-3.0ポイント）を示す。
全体として、200件から20,000件へスケールしても格差は持続し、ツールをまたいでも同様である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。