[论文解读] Mitigating Gender Bias in Machine Translation with Target Gender Annotations
本文提出一种通过在训练数据中引入词级性别标注(目标性别标注,TGA)来减少神经机器翻译(NMT)中性别偏见的方法,使模型在有可用时能够使用显式的性别信息。在五个语种对上的实验表明,TGA可使WinoMT基准准确率最高提升25.8个百分点,尤其当与现成的共指消解工具结合使用时,显著降低了对性别刻板印象的依赖。
When translating "The secretary asked for details." to a language with grammatical gender, it might be necessary to determine the gender of the subject "secretary". If the sentence does not contain the necessary information, it is not always possible to disambiguate. In such cases, machine translation systems select the most common translation option, which often corresponds to the stereotypical translations, thus potentially exacerbating prejudice and marginalisation of certain groups and people. We argue that the information necessary for an adequate translation can not always be deduced from the sentence being translated or even might depend on external knowledge. Therefore, in this work, we propose to decouple the task of acquiring the necessary information from the task of learning to translate correctly when such information is available. To that end, we present a method for training machine translation systems to use word-level annotations containing information about subject's gender. To prepare training data, we annotate regular source language words with grammatical gender information of the corresponding target language words. Using such data to train machine translation systems reduces their reliance on gender stereotypes when information about the subject's gender is available. Our experiments on five language pairs show that this allows improving accuracy on the WinoMT test set by up to 25.8 percentage points.
研究动机与目标
- 解决在将性别模糊的源句翻译为具有语法性别标记的目标语言时,神经机器翻译(NMT)系统中的性别偏见问题。
- 将性别信息获取与端到端翻译学习任务解耦,实现对外部性别信号的灵活整合。
- 通过在训练期间利用显式性别标注,提升NMT在WinoMT等有偏见翻译基准上的表现。
- 证明TGA不仅在低资源环境下有效,也可在大规模商业NMT系统中应用。
提出的方法
- 将目标语言词汇的语法性别信息投射到对应源语言词汇上,生成词级性别标注。
- 在训练数据中加入这些标注,使NMT模型能够学习在有性别信息时加以利用。
- 该方法将性别信息获取与模型训练解耦,支持使用多样化的外部来源,如共指消解工具。
- 通过TGA对模型进行微调,以减少推理过程中对性别刻板印象的依赖。
- 实验同时使用了理想标注(完美性别标签)和来自现成共指消解工具(AllenNLP与Hugging Face)的真实世界标注。
- 在WinoMT基准上评估性能,测量准确率和偏见指标(如ΔG与M:F比率)的提升。
实验结果
研究问题
- RQ1在将性别模糊的源句翻译为具有语法性别标记的目标语言时,词级性别标注能否减少NMT系统中的性别偏见?
- RQ2与理想标注相比,TGA在与现成共指消解工具结合使用时的效果如何?
- RQ3TGA的效果是否随训练数据规模变化而变化?其在大规模商业NMT系统中是否具备可扩展性?
- RQ4TGA能否实现将性别信息获取与模型训练解耦,从而支持灵活整合外部来源?
- RQ5TGA在多大程度上提升了WinoMT基准的表现,特别是在减少刻板性别翻译方面?
主要发现
- 在五个语种对上,使用TGA与理想性别标注可使WinoMT准确率最高提升25.8个百分点。
- 使用TGA的专有大规模数据系统在M:F比率上比基线提升7.1个百分点,在ΔG上提升12.5个百分点。
- 使用AllenNLP提供的性别标注时,TGA在WinoMT准确率上仅比使用理想标注下降4.5%至7.1%。
- 在大规模数据系统中,使用TGA的系统在偏见指标上的改进优于WMT数据系统,表明TGA在更大规模设置下更有效。
- 即使使用真实世界的共指消解工具而非完美标签,TGA在所有五个语种对上均优于基线系统。
- 该方法通过支持外部性别信号的集成,而无需手工构建数据或复杂重打分机制,实现了在真实系统中的实用部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。