[論文レビュー] Evaluating Gender Bias in Speech Translation
本稿では、機械翻訳(MT)ベンチマークであるWinoMTを模倣して作成された、エンドツーエンドの音声翻訳(ST)における性別バイアスを評価するための自由に利用可能なチャレンジセットWinoSTを紹介する。S-Transformer STシステムを用いて、4つの言語対(en-de, en-es, en-fr, en-it)における性別正確性を評価した結果、STにおける性別正確性はMTと比較して著しく低く、特に語形屈曲が豊富な言語ではステレオタイプ的役割の翻訳において高いバイアスが確認された(en-itでは37.3%)。
The scientific community is increasingly aware of the necessity to embrace pluralism and consistently represent major and minor social groups. Currently, there are no standard evaluation techniques for different types of biases. Accordingly, there is an urgent need to provide evaluation sets and protocols to measure existing biases in our automatic systems. Evaluating the biases should be an essential step towards mitigating them in the systems. This paper introduces WinoST, a new freely available challenge set for evaluating gender bias in speech translation. WinoST is the speech version of WinoMT which is a MT challenge set and both follow an evaluation protocol to measure gender accuracy. Using a state-of-the-art end-to-end speech translation system, we report the gender bias evaluation on four language pairs and we show that gender accuracy in speech translation is more than 23% lower than in MT.
研究の動機と目的
- 音声翻訳システムにおける性別バイアスの標準化された評価プロトコルの欠如に対処すること。
- 客観的な性別バイアス測定を可能にする大規模かつ多言語のチャレンジセットの開発。
- 元々機械翻訳向けに開発されたWinoMT評価プロトコルを、音声翻訳分野へ拡張すること。
- 特に性別を示す言語において、性別ステレオタイプに基づく翻訳エラーを特定・定量すること。
- 系統的なバイアス検出と是正を可能にするため、NLP分野における公平性向上の長期的取り組みを支援すること。
提案手法
- WinoMTを模倣した合成的で多言語対応のチャレンジセットWinoSTを提案。3,888文のうち、核心的関係を示す代名詞と性別が明示された実体を含む。
- WinoMTの評価プロトコルをSTに適応し、翻訳における正しい性別一致に基づいて性別正確性を測定。
- エンドツーエンドのS-Transformerモデルを用いて、4つの言語対(en-de, en-es, en-fr, en-it)における性別バイアスを評価。
- 予測された性別をゴールデンラベルと比較して性別正確性を評価し、正確性、△G(性別不均衡)、△S(ステレオタイプバイアス)などの指標を算出。
- 音声認識(ASR)部のバイアスを分離するために、全体の正確性と代名詞予測正確性を用いて、文脈的レベルでの性別バイアスを分析。
- ステレオタイプ的および反ステレオタイプ的職業を含む制御された文のテンプレートを用いて、翻訳におけるバイアスの性別推論を検出。
実験結果
リサーチクエスチョン
- RQ1複数の言語対において、音声翻訳における性別バイアスは、機械翻訳と比較してどのように異なるか?
- RQ2STシステムは、文脈的核心的関係に基づいて、実体の性別をどの程度正しく保持しているか?
- RQ3語形屈曲が豊富な言語(例えばスペイン語やイタリア語)において、性別ステレオタイプ的役割が翻訳正確性にどのように影響を与えるか?
- RQ4ASRが、文脈的レベルにおいてSTにおける性別バイアスにどの程度寄与しているか?
- RQ5WinoSTベンチマークは、代名詞や名詞の性別一致に関連して、STシステムにおける性別バイアスを検出・定量できるか?
主な発見
- STにおける性別正確性はMTと比較して著しく低く、en-itでは最低の37.3%を記録しており、翻訳における高い性別バイアスを示している。
- △G(性別不均衡)は、en-es(25.7)およびen-it(23.6)で最も高く、翻訳において男性形の選好が強いことを示している。
- △S(ステレオタイプバイアス)は、en-es(12.3)およびen-fr(14.5)で最も高く、ステレオタイプ的役割の翻訳がより正しく予測されやすいことを示している。
- ASRシステムは文脈的レベルでほとんど性別バイアスを示さず、綴りの誤りを除いた代名詞予測正確性は98.72%であった。
- 全体的なST性能は低かったが、MTと比較して△Gおよび△Sの相対的性能が向上しており、STでは文脈によってバイアスが部分的に緩和されている可能性がある。
- 本研究は、合成ベンチマーク(WinoST)が性別バイアスの検出に有効であることを確認したが、人工的なパターンを導入する可能性もある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。