[论文解读] They, Them, Theirs: Rewriting with Gender-Neutral English
本文定义了一个用于单实体句子的中性性别无关英语改写任务,创建了一个基准数据集,并展示了一个 Seq2Seq 模型在无需带标签数据的情况下就能学习改写为 they/them 形式,BLEU 超过 99,WER 低于 1%。
Responsible development of technology involves applications being inclusive of the diverse set of users they hope to support. An important part of this is understanding the many ways to refer to a person and being able to fluently change between the different forms as needed. We perform a case study on the singular they, a common way to promote gender inclusion in English. We define a re-writing task, create an evaluation benchmark, and show how a model can be trained to produce gender-neutral English with <1% word error rate with no human-labeled data. We discuss the practical applications and ethical considerations of the task, providing direction for future work into inclusive natural language systems.
研究动机与目标
- 通过实现对单实体句子在带性别偏向和性别中性英语引用之间的流畅切换,推动包容性自然语言处理。
- 创建一个经人工筛选的人类评估基准,涵盖跨多领域的 500 对性别化/性别中性英语句子对。
- 证明可以在无人工标注训练数据的情况下训练出能够生成性别中性改写的模型。
- 提出一种轻量级、可扩展的方法学,能够适应其他语言和身份标记。
提出的方法
- 开发一种改写算法,使用正则表达式、依存句法分析器(SpaCy)和语言模型(GPT-2),从 1 亿条维基百科句子中筛选出 1500 万条带性别信息的句子,自动生成并行数据集。
- 在生成的并行数据及扩充数据(非性别相关身份数据与带性别形式的句子)上训练一个 Transformer 序列到序列模型(6 层编码器,6 层解码器)。
- 在人工注释的跨五个领域的 500 对句子对测试集上,使用 BLEU 和词错误率(WER)进行评估。
- 比较显式改写算法与神经 Seq2Seq 模型在代词/动词处理以及罕见词令牌上的优劣,以评估各自的优势与局限。
- 提供模型卡并讨论部署与包容性方面的伦理考量。
实验结果
研究问题
- RQ1模型是否能熟练地将包含单一人的带性别化英文句子改写为使用 they/them 的性别中性形式?
- RQ2是否可以通过自动化基于规则的数据生成在没有人工标注并行数据的情况下训练出这样的模型?
- RQ3在多领域中,基于规则的方法与 Seq2Seq 方法在准确度(BLEU)和词级错误率(WER)方面的比较如何?
- RQ4在 NLP 系统中部署性别中性改写的实际和伦理含义是什么?
- RQ5该方法对域迁移和罕见词在如 Twitter 与 Reddit 等嘈杂文本域中的鲁棒性如何?
主要发现
- 无论是算法还是 Seq2Seq 模型,在测试集上都实现了 BLEU 分数超过 99,WER 低于 1%。
- 该算法在 BLEU 和 WER 上略优于模型,但模型在代词/动词错误方面出错更少;它在表情符号和符号等罕见词汇上表现受限。
- 模型错误更易受域不匹配和罕见词汇的影响,而算法在某些动词上更容易出现解析错误。
- 从 1 亿条维基百科句子中挖掘出约 1500 万条性别化句子,形成训练并行数据。
- 测试集包含 500 条人工注释的性别化句子,跨五个领域平衡:Twitter、Reddit、新闻、电影台词和笑话。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。