[論文レビュー] They, Them, Theirs: Rewriting with Gender-Neutral English
この論文は、単一エンティティ文に対する性別中立な英語の書き換えタスクを定義し、ベンチマークを作成し、ラベル付きデータなしでもthey/them形へ書き換えを学習できることを示すSeq2Seqモデルが、99以上のBLEUと1%未満のWERを達成する。
Responsible development of technology involves applications being inclusive of the diverse set of users they hope to support. An important part of this is understanding the many ways to refer to a person and being able to fluently change between the different forms as needed. We perform a case study on the singular they, a common way to promote gender inclusion in English. We define a re-writing task, create an evaluation benchmark, and show how a model can be trained to produce gender-neutral English with <1% word error rate with no human-labeled data. We discuss the practical applications and ethical considerations of the task, providing direction for future work into inclusive natural language systems.
研究の動機と目的
- ジェンダー表現と性別中立の英語表現の間で、単一のエンティティ文に対する流暢な切替を可能にすることで、包括的なNLPを動機づける。
- 多様な領域にまたがる500組の性別表現/性別中立の文ペアの人手キュレーション評価ベンチマークを作成する。
- 人手によるラベル付き並列データなしで、モデルを性別中立Rewriteを生成するよう訓練できることを示す。
- 他言語やアイデンティティマーカーに適応可能な、軽量でスケーラブルな手法を提案する。
提案手法
- 正規表現、依存構文解析(SpaCy)、言語モデル(GPT-2)を用いて、15Mの性別表現文にフィルタリングした1億件のWikipedia文から並列データを自動生成するリライティングアルゴリズムを開発する。
- 生成した並列データと拡張データ(非性別特性データおよび性別語形変化文)を用いて、Transformerのシーケンス・ツー・シーケンスモデル(エンコーダ6層、デコーダ6層)を訓練する。
- 5つのドメインにまたがる500文ペアの手動注釈付きテストセットで、BLEUと語彙誤り率(WER)を評価する。
- 明示的な書き換えアルゴリズムと神経系 Seq2Seq モデルを比較し、代名詞・動詞処理および稀少語彙の扱いにおける長所・短所を評価する。
- モデルカードを提供し、導入とインクルージョンに関する倫理的配慮を議論する。
実験結果
リサーチクエスチョン
- RQ1単一の人間エンティティを持つ性別表現英語文をthey/themを用いて性別中立形へ流暢に書き換えられるか?
- RQ2自動ルールベースのデータ生成によって手動ラベル付き並列データなしでそのようなモデルを訓練できるか?
- RQ3ルールベースとSeq2Seqアプローチは、異なるドメインでの正確さ(BLEU)と語彙レベルの誤差(WER)でどう比較されるか?
- RQ4NLPシステムにおける性別中立 Rewrite の実装と倫理的含意は?
- RQ5TwitterやRedditのようなノイズの多いテキスト領域で、ドメインシフトやレア語彙に対するアプローチの堅牢性はどの程度か?
主な発見
| ソース(アイデンティティ) | BLEU | WER |
|---|---|---|
| Source (identity) | 90.32 | 12.40% |
| Algorithm | 99.63 | 0.63% |
| Model | 99.44 | 0.99% |
- アルゴリズムとSeq2Seqモデルの両方が、テストセットでBLEUスコア99を超え、WERを1%未満に達成する。
- BLEUとWERではアルゴリズムがモデルをやや上回るが、モデルは代名詞・動詞の誤りが少なく、絵文字や記号といった稀少語彙では苦戦する。
- モデルの誤りはドメイン不一致と稀少語彙に敏感である一方、アルゴリズムは特定の動詞で構文解析ミスが起こりやすい。
- 訓練用の並列データとして、100MのWikipedia文から約1500万の性別表現文を採掘した。
- テストセットは、5ドメイン(Twitter、Reddit、ニュース、映画の引用、ジョーク)にまたがる500の手動注釈付き性別表現文で構成されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。