Skip to main content
QUICK REVIEW

[论文解读] Margin-based Parallel Corpus Mining with Multilingual Sentence Embeddings

Mikel Artetxe, Holger Schwenk|arXiv (Cornell University)|Nov 3, 2018
Natural Language Processing Techniques参考文献 16被引用 156
一句话总结

该论文提出了一种基于边缘的并行语料库挖掘方法,利用多语言句子嵌入,通过测量句子对相似度与其k个最近邻平均相似度之间的差距,改进了余弦相似度阈值法。该方法在BUCC上取得SOTA结果(较之前工作高出10多个F1分),在UN重建任务中达到85%的精确率,并在使用过滤后的ParaCrawl数据时,使英语-德语神经机器翻译BLEU分数在newstest2014上提升超过1分(达到31.2分)。

ABSTRACT

Machine translation is highly sensitive to the size and quality of the training data, which has led to an increasing interest in collecting and filtering large parallel corpora. In this paper, we propose a new method for this task based on multilingual sentence embeddings. In contrast to previous approaches, which rely on nearest neighbor retrieval with a hard threshold over cosine similarity, our proposed method accounts for the scale inconsistencies of this measure, considering the margin between a given sentence pair and its closest candidates instead. Our experiments show large improvements over existing methods. We outperform the best published results on the BUCC mining task and the UN reconstruction task by more than 10 F1 and 30 precision points, respectively. Filtering the English-German ParaCrawl corpus with our approach, we obtain 31.2 BLEU points on newstest2014, an improvement of more than one point over the best official filtered version.

研究动机与目标

  • 为解决余弦相似度在并行语料库挖掘中的局限性,其在不同句子对之间存在尺度不一致的问题。
  • 通过用基于边缘的评分机制替代固定的相似度阈值,提高最近邻检索的可靠性。
  • 提升挖掘出的并行语料库质量,以支持下游神经机器翻译任务。
  • 在多种语言对(包括低资源语言对和远距离语言对)中展示一致的性能提升。

提出的方法

  • 采用共享的多语言编码器-解码器架构,包含双向LSTM编码器和LSTM解码器,基于多语言平行数据使用交叉熵损失进行训练。
  • 通过在编码器隐藏状态上进行最大池化操作,生成固定长度的句子嵌入,并在训练后丢弃解码器。
  • 应用基于边缘的评分函数,计算句子对的余弦相似度与其在两种语言中k个最近邻平均相似度之间的差异。
  • 采用比率边缘函数,通过最大分数检索,并在训练数据上优化过滤阈值以最大化F1分数。
  • 以批量方式处理大规模语料库(如ParaCrawl),基于边缘得分筛选出最高分的句子对。
  • 使用LASER工具包部署模型,支持93种语言的单一多语言编码器。

实验结果

研究问题

  • RQ1与固定余弦相似度阈值相比,基于边缘的评分是否能提高并行句子检索的可靠性?
  • RQ2考虑余弦相似度中的尺度不一致性,是否能提升在多样化语言对上的挖掘性能?
  • RQ3当应用于ParaCrawl等大规模并行语料库时,该方法在下游NMT任务中的性能提升程度如何?
  • RQ4在BUCC和UN重建等标准基准测试中,该方法与SOTA系统相比表现如何?
  • RQ5该方法是否能有效泛化到远距离语言对(如英语-罗马尼亚语或英语-中文)?

主要发现

  • 所提方法在BUCC英语-德语测试集上达到95.6的F1分数,较之前最佳结果高出10多个F1分。
  • 在UN重建任务中,该方法在英语-西班牙语语对上的P@1精确率达到85.78%,较之前SOTA提升30个百分点。
  • 使用该方法过滤ParaCrawl英语-德语语料库后,在newstest2014上达到31.2的去token化BLEU分数,较最佳官方过滤版本提升超过1分。
  • 该方法在BUCC的全部四个语言对上均表现提升,其中英语-法语和英语-罗马尼亚语的F1分数均超过92。
  • 该系统在多种设置下均实现一致的性能提升,包括低资源语言对和远距离语言对,展现出良好的鲁棒性和泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。