Skip to main content
QUICK REVIEW

[论文解读] Using Mechanical Turk to Build Machine Translation Evaluation Sets

Michael Bloodgood, Chris Callison-Burch|arXiv (Cornell University)|Oct 20, 2014
Mobile Crowdsensing and Crowdsourcing参考文献 11被引用 35
一句话总结

本文提出使用亚马逊机械 Turk(MTurk)构建低成本、高质量的机器翻译(MT)评估集,证明 MTurk 生成的测试集在系统性能排名和相对性能差异方面与专业制作的测试集几乎完全一致。尽管成本降低了 90%——从 39,800 美元降至 179.20 美元——MTurk 生成的测试集仍得出了与 MT 系统质量相关的相同结论,验证了其在特定领域和多语言 MT 评估中的实用性。

ABSTRACT

Building machine translation (MT) test sets is a relatively expensive task. As MT becomes increasingly desired for more and more language pairs and more and more domains, it becomes necessary to build test sets for each case. In this paper, we investigate using Amazon's Mechanical Turk (MTurk) to make MT test sets cheaply. We find that MTurk can be used to make test sets much cheaper than professionally-produced test sets. More importantly, in experiments with multiple MT systems, we find that the MTurk-produced test sets yield essentially the same conclusions regarding system performance as the professionally-produced test sets yield.

研究动机与目标

  • 降低为新语对和新领域创建专业机器翻译(MT)评估集的高昂成本。
  • 调查 MTurk 上的非专家众包工作者是否能够生成可靠、高质量的参考翻译以用于 MT 评估。
  • 评估 MTurk 生成的测试集是否能得出与专业制作的测试集相同的 MT 系统性能结论。
  • 探讨对 MTurk 生成翻译进行后编辑对测试集质量与实用性的潜在影响。

提出的方法

  • 将来自 NIST 2009 MT 评估集的 1,792 个乌尔都语句子发布到 MTurk,并为每个英文翻译支付 0.10 美元。
  • 通过人工剔除使用自动 MT 系统生成的翻译来实施质量控制。
  • 在后续工作中将乌尔都语句子转换为图像,以防止复制粘贴作弊。
  • 开展第二轮数据收集阶段,新工人以每十句话 0.25 美元的价格校对初始翻译中的拼写、语法和标点错误。
  • 使用 BLEU 分数和基线性能百分比比较不同测试集之间的系统排名。
  • 将 NIST 2009 测试集中表现最佳的系统(ISI Syntax)作为相对性能比较的基线。

实验结果

研究问题

  • RQ1机械 Turk 是否可用于以显著低于专业翻译的成本构建机器翻译评估集?
  • RQ2MTurk 生成的测试集是否能得出与专业制作的测试集相同的 MT 系统相对性能排名?
  • RQ3对 MTurk 生成的翻译进行后编辑是否能提高测试集在 MT 评估中的可靠性或实用性?
  • RQ4使用图像而非文本作为源句子是否能防止作弊并提升数据质量?

主要发现

  • MTurk 测试集的创建成本为 179.20 美元,相比专业 NIST 2009 测试集的 39,800 美元,成本降低了 95%。
  • 尽管成本较低且采用单参考翻译格式,MTurk 生成的测试集仍得出了与专业 NIST 2009 测试集相同的 MT 系统相对性能排名。
  • 三套测试集中,基线性能的百分比几乎完全一致:ISI Syntax 和 JHU Syntax 的表现分别为 100% 和 100.87%,而 Joshua-Hierarchical 约为基线的 80%。
  • 对 MTurk 翻译进行后编辑并未显著改变性能结论,表明众包工作者原始输出中的小错误并不会损害测试集的实用性。
  • 本研究证实,MTurk 上的非专家众包工作者能够生成既经济高效又在统计上可靠的评估集,适用于 MT 系统比较。
  • 结果支持使用 MTurk 快速、可扩展且低成本地构建特定领域 MT 测试集的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。