[論文レビュー] Reassessing Claims of Human Parity and Super-Human Performance in Machine Translation at WMT 2019
この論文は、WMT 2019における機械翻訳の人体的同等性および超人的性能に関する主張に疑問を呈し、人間評価における3つの重大な欠陥——文間の文脈制限、プロでない評価者、基準翻訳依存の評価——を特定する。プロの翻訳者を用い、文書全体の文脈を提供する改訂評価を実施した結果、英語→ドイツ語の人体的同等性を除き、すべての主張が否定された。今後のMT評価においては、評価基準の向上を提言する。
We reassess the claims of human parity and super-human performance made at the news shared task of WMT 2019 for three translation directions: English-to-German, English-to-Russian and German-to-English. First we identify three potential issues in the human evaluation of that shared task: (i) the limited amount of intersentential context available, (ii) the limited translation proficiency of the evaluators and (iii) the use of a reference translation. We then conduct a modified evaluation taking these issues into account. Our results indicate that all the claims of human parity and super-human performance made at WMT 2019 should be refuted, except the claim of human parity for English-to-German. Based on our findings, we put forward a set of recommendations and open questions for future assessments of human parity in machine translation.
研究の動機と目的
- WMT 2019で報告された機械翻訳システムの人体的同等性および超人的性能に関する主張の妥当性を、批判的に再評価すること。
- 人間評価の設定に内在する3つの主要な欠陥——文間の文脈制限、非プロの評価者、基準翻訳依存の評価——を特定し、分析すること。
- これらの欠陥を是正した改訂評価を実施し、元の主張が依然として成立するかを検証すること。
- 特に人体的同等性評価に関して、今後のMTシステムの人間評価に役立つ具体的な提言を提供すること。
提案手法
- 非プロのバイリンガル評価者ではなく、プロの翻訳者を用いて、WMT 2019のMTシステムの改訂版人間評価を実施した。
- 評価者に文書全体の文脈を提供し、前後の文にアクセスできるようにすることで、正確な評価を保証した。
- 基準翻訳に依存しないアプローチを用いて再評価し、特にドイツ語→英語の方向に対して基準翻訳バイアスを排除した。
- 高品質および低品質の人間翻訳と比較することで、人体的同等性の主張の妥当性を検証した。
- 統計的分析を用いて、人間翻訳と機械翻訳の間の差が有意かどうかを評価した。
- 得られた知見を応用し、元のWMT 2019の主張を再評価した。評価対象は英語→ドイツ語、英語→ロシア語、ドイツ語→英語の翻訳方向である。
実験結果
リサーチクエスチョン
- RQ1文間の文脈制限および文書レベルの文脈欠如が、MTにおける人間評価の信頼性にどの程度影響を及えるか?
- RQ2評価者の翻訳能力が、機械翻訳の品質評価および人体的同等性主張の妥当性にどのように影響するか?
- RQ3基準翻訳に基づく評価が、どの程度バイアスを生じさせ、MT性能の評価を歪めてしまうか?
- RQ4改訂評価条件下で、人体的同等性または超人的性能を真正に達成しているMTシステムは、どの程度存在するか?
- RQ5今後のMT評価において、人体的同等性に関する妥当で信頼できる主張を保証するためには、どのようなメソドロジカルな変更が必要か?
主な発見
- 英語→ドイツ語翻訳に関しては、プロの翻訳者と文書全体の文脈を用いた評価でも、人体的同等性の主張が依然として妥当である。
- 英語→ロシア語およびドイツ語→英語翻訳に関しては、改訂評価体制下で、人体的同等性および超人的性能に関するすべての主張が否定された。
- 非プロの評価者を用いた結果、採点がより寛大になり、機械翻訳の品質が誇張されて評価され、誤った人体的同等性の主張が生じた。
- 基準翻訳に基づく評価はバイアスを生じさせ、特にドイツ語→英語方向で顕著であった。基準翻訳が評価結果に影響を与え、人体的同等性の主張に寄与した可能性が大きい。
- プロの翻訳者間での評価者間整合性は顕著に高く、非プロの評価者と比較して、より信頼性の高い評価であることが示された。
- 本研究は、特にWMTのような高利害なコンテストにおいて、現在のMT評価実務が、人体的同等性や超人的性能に関する明確な主張を支持するには不十分であることを確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。