QUICK REVIEW

[論文レビュー] Welcome to the Modern World of Pronouns: Identity-Inclusive Natural Language Processing beyond Gender

Anne Lauscher, Archie Crowley|arXiv (Cornell University)|Feb 24, 2022

Hate Speech and Cyberbullying Detection被引用数 25

ひとこと要約

この論文は英語における第3人称代名詞の現象を調査し（ネオ代名詞を含む）、代名詞モデル化のための five desiderata を提案し、パラダイムを検討し、デlexicalization が共参照タスクの公正性を改善できることを実験的に示す。

ABSTRACT

The world of pronouns is changing. From a closed class of words with few members to a much more open set of terms to reflect identities. However, Natural Language Processing (NLP) is barely reflecting this linguistic shift, even though recent work outlined the harms of gender-exclusive language technology. Particularly problematic is the current modeling 3rd person pronouns, as it largely ignores various phenomena like neopronouns, i.e., pronoun sets that are novel and not (yet) widely established. This omission contributes to the discrimination of marginalized and underrepresented groups, e.g., non-binary individuals. However, other identity-expression phenomena beyond gender are also ignored by current NLP technology. In this paper, we provide an overview of 3rd person pronoun issues for NLP. Based on our observations and ethical considerations, we define a series of desiderata for modeling pronouns in language technology. We evaluate existing and novel modeling approaches w.r.t. these desiderata qualitatively, and quantify the impact of a more discrimination-free approach on established benchmark data.

研究の動機と目的

英語の第3人称代名詞現象の体系的な概要を、ネオ代名詞および名詞自己/絵文字自己代名詞を含めて提示する。
NLP システムにおける代名詞モデリングの five desiderata を提案し、差別を減らしアイデンティティの多様性を反映する。
desiderata に対して既存および新規の代名詞モデリングパラダイムを評価する。
標準のコア参照ベンチマークに対する非モデリング（デlexicalization）の影響を定量化する。
倫理的配慮を強調し、広範な議論と将来の多言語拡張のための生きたドラフトを概説する。

提案手法

ネオ代名詞およびアイデンティティ関連代名詞に焦点を当てた第3人称代名詞現象の文献調査と語彙的統合。
Reddit のコーパス分析を通じて代名詞の使用を観察し、現実世界のテキストにおける現象を特定する。
代名詞モデリングの five desiderata（D1–D5）を定義する。
desiderata に対するモデリングパラダイム（Classic, Bucketing, Delexicalization, Post-hoc）の質的評価（Table 3）。
OntoNotes 5.0 の共参照解決における代名詞置換の影響を測定するデlexicalization 実験（Table 5）。
RoBERTa-large をエンコーダとして標準の損失と学習設定で Dobrovolskii 2021 の最先端コア参照モデルを再現・適用する。

実験結果

リサーチクエスチョン

RQ1NLP に関連する英語の第3人称代名詞の現在の現象（ネオ代名詞や非二元性を含む）は何か？
RQ2NLP モデルはアイデンティティの前提を置かずに多様で進化する代名詞セットをどう扱うべきか（D1）？
RQ3モデルは既存の代名詞、ネオ代名詞、新規代名詞を組み込み、複数または変化する代名詞セットに対応できるか（D2–D3, D4）？
RQ4代名詞を linguistically モデリングすることと delexicalization の公正性とタスクパフォーマンスの観点でのトレードオフはどうか（D5）？
RQ5delexicalization は標準ベンチマークのコア参照性能にどのような影響を与えるか？

主な発見

ネオ代名詞と非二元代名詞はオンラインの談話に存在し、Reddit のコーパス分析によって識別可能であり、広く進化するオープンクラスの代名詞集合を示す。
NLP の代名詞モデリングを導く five desiderata（D1–D5）を提案し、前提を避け、 novel 代名詞への開放性、ユーザーの関与を強調する。
従来の代名詞モデリングは偏りを生みやすくカバレッジが限られる；delexicalization は代名詞をプレースホルダーとして扱いつつ、タスクに関連する情報を保持することで差別を緩和できる。
OntoNotes 5.0 における共参照解決設定で、訓練時の置換語がプレースホルダーに置換されると損失は比較的緩和される一方、テスト時の代名詞を置換すると性能が大幅に低下する。これは delexicalization が公正性を改善しうることを示唆する。
本研究はデlexicalization がコア参照解決の公正性を高めつつ競争力のあるパフォーマンスを維持できることを示し、すべての状況で表層形代名詞モデリングの必然性に疑問を投げかける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。