[論文レビュー] Using Mechanical Turk to Build Machine Translation Evaluation Sets
本稿では、アマゾン・メカニカル・トゥーカー(MTurk)を用いて低コストかつ高品質な機械翻訳(MT)評価セットを構築する手法を提案している。実証により、MTurkで作成されたテストセットが、プロフェッショナルが作成したセットとほぼ同一のシステム性能順位と相対的性能差を示すことが明らかになった。コストを90%削減(179.20ドル対39,800ドル)したにもかかわらず、MTシステムの品質に関する結論は同一であり、ドメイン特化型および多言語MT評価におけるその有用性が裏付けられた。
Building machine translation (MT) test sets is a relatively expensive task. As MT becomes increasingly desired for more and more language pairs and more and more domains, it becomes necessary to build test sets for each case. In this paper, we investigate using Amazon's Mechanical Turk (MTurk) to make MT test sets cheaply. We find that MTurk can be used to make test sets much cheaper than professionally-produced test sets. More importantly, in experiments with multiple MT systems, we find that the MTurk-produced test sets yield essentially the same conclusions regarding system performance as the professionally-produced test sets yield.
研究の動機と目的
- 新規言語対やドメインにおける、専門的機械翻訳(MT)評価セットを構築する際の高コストを低減すること。
- MTurk上での非専門家クラウドワーカーが、MT評価のための信頼性があり高品質な参照翻訳を生成できるかどうかを調査すること。
- MTurkで作成されたテストセットが、プロフェッショナルが作成したテストセットと同等のMTシステム性能に関する結論を導くかどうかを評価すること。
- 翻訳の修正作業が、MTurkで生成されたテストセットの品質および有用性に与える影響を検討すること。
提案手法
- NIST 2009 MT評価セットに含まれる1,792件のウルドゥー語文をMTurkに掲載し、1件あたり0.10ドルの報酬を支払って英語翻訳を依頼した。
- 自動MTシステムを用いて翻訳を生成した回答を手動で除外することで品質管理を実施した。
- 今後の作業として、コピー&ペーストの不正を防ぐために、ウルドゥー語文を画像に変換することを計画した。
- 2回目のデータ収集フェーズを実施し、新規ワーカーに初期翻訳のスペル、文法、タイプミスを修正してもらい、10文あたり0.25ドルの報酬を支払った。
- BLEUスコアとベースライン性能の割合を用いて、テストセット間でのシステム順位を比較した。
- NIST 2009セットで最高性能を示したシステム(ISI Syntax)を、相対的性能比較のベースラインとして扱った。
実験結果
リサーチクエスチョン
- RQ1メカニカル・トゥーカーを用いることで、専門的翻訳よりも著しく低コストなMT評価セットを構築できるか?
- RQ2MTurkで作成されたテストセットは、プロフェッショナルが作成したテストセットと同等のMTシステムの相対的性能順位を導くか?
- RQ3MTurkで生成された翻訳の修正作業が、MT評価におけるテストセットの信頼性や有用性を向上させるか?
- RQ4ソース文をテキストではなく画像として提供することで、不正行為を防ぎ、データ品質を向上させられるか?
主な発見
- MTurkテストセットの構築コストは179.20ドルであり、プロフェッショナルが作成したNIST 2009テストセットの39,800ドルと比較して95%の削減となった。
- 低コストかつ単一参照翻訳形式であったにもかかわらず、MTurkで作成されたテストセットは、プロフェッショナルが作成したNIST 2009テストセットと同一のMTシステムの相対的性能順位を示した。
- 3つのシステムのベースライン性能の割合は、テストセット間でほぼ同一であった:ISI Syntaxは100%、JHU Syntaxは100.87%を示し、Joshua-Hierarchicalはベースラインの約80%の性能を示した。
- MTurクライアントの翻訳を修正しても、性能に関する結論に顕著な変化はなく、原始的なクラウドワーカー出力にわずかな誤りがあっても、テストセットの有用性が損なわれないことが示唆された。
- 本研究は、MTurk上での非専門家クラウドワーカーが、コスト効率が良く、統計的に信頼性のあるMTシステム比較用の評価セットを生成できることを確認した。
- 結果から、ドメイン特化型MTテストセットを迅速かつスケーラブルに、低コストで構築するためのMTurkの実用性が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。