[论文解读] Evaluating Gender Bias in Speech Translation
本文提出了 WinoST,一个用于评估端到端语音翻译(ST)中性别偏见的免费挑战集,其设计灵感源自 WinoMT 机器翻译基准。通过使用 S-Transformer ST 系统,作者在四种语言对(en-de、en-es、en-fr、en-it)上评估了性别准确性,发现 ST 中的性别准确性显著低于 MT,尤其在词形丰富的语言中,刻板印象角色翻译的偏见更高,en-it 的性别准确率仅为 37.3%。
The scientific community is increasingly aware of the necessity to embrace pluralism and consistently represent major and minor social groups. Currently, there are no standard evaluation techniques for different types of biases. Accordingly, there is an urgent need to provide evaluation sets and protocols to measure existing biases in our automatic systems. Evaluating the biases should be an essential step towards mitigating them in the systems. This paper introduces WinoST, a new freely available challenge set for evaluating gender bias in speech translation. WinoST is the speech version of WinoMT which is a MT challenge set and both follow an evaluation protocol to measure gender accuracy. Using a state-of-the-art end-to-end speech translation system, we report the gender bias evaluation on four language pairs and we show that gender accuracy in speech translation is more than 23% lower than in MT.
研究动机与目标
- 为解决语音翻译系统中性别偏见缺乏标准化评估协议的问题。
- 开发一个大规模、多语言的挑战集,以实现对 ST 中性别偏见的客观测量。
- 将原本用于机器翻译的 WinoMT 评估协议扩展至语音翻译领域。
- 揭示并量化 ST 系统中性别刻板印象翻译错误,尤其是在具有性别标记的语言中。
- 通过支持系统性偏见检测与缓解,推动 NLP 领域长期实现公平性。
提出的方法
- 提出 WinoST,一个基于 WinoMT 的合成多语言挑战集,包含 3,888 个句子,其中包含指代性代词和性别化实体。
- 将 WinoMT 评估协议适配至 ST 领域,通过正确性别一致性的翻译来衡量性别准确性。
- 使用端到端的 S-Transformer 模型进行语音翻译,以评估四种语言对(en-de、en-es、en-fr、en-it)中的性别偏见。
- 通过将预测的性别与黄金标准进行比较来评估性别准确性,计算准确率、△G(性别不平衡)和 △S(刻板印象偏见)等指标。
- 单独分析自动语音识别(ASR)组件,以隔离转录中的性别偏见,使用全局准确率和代词预测准确率。
- 采用受控的句子模板,包含刻板印象和反刻板印象的职业,以检测翻译中性别推断的偏见。
实验结果
研究问题
- RQ1在多个语言对中,语音翻译中的性别偏见与机器翻译相比如何?
- RQ2ST 系统在多大程度上能根据上下文指代关系正确保留实体的性别?
- RQ3在西班牙语和意大利语等词形丰富的语言中,性别刻板印象角色如何影响翻译准确性?
- RQ4ASR 对 ST 中的性别偏见有何贡献,尤其是在上下文层面?
- RQ5WinoST 基准能否检测并量化 ST 系统中的性别偏见,特别是在代词和名词性别一致性的关系上?
主要发现
- ST 中的性别准确率显著低于 MT,en-it 的最低得分为 37.3%,表明翻译中存在较高的性别偏见。
- △G 指标(性别不平衡)在 en-es(25.7)和 en-it(23.6)中最高,表明翻译中强烈偏好使用阳性形式。
- △S 指标(刻板印象偏见)在 en-es(12.3)和 en-fr(14.5)中最高,表明刻板印象角色的翻译更可能正确。
- ASR 系统在上下文层面表现出极低的性别偏见,去除拼写错误后,代词预测准确率达到 98.72%。
- 尽管整体 ST 性能较低,但与 MT 相比,ST 系统在 △G 和 △S 指标上表现出相对改善,表明上下文在一定程度上缓解了偏见。
- 本研究证实,像 WinoST 这样的合成基准在检测性别偏见方面是有效的,尽管可能引入人为模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。