Skip to main content
QUICK REVIEW

[论文解读] Word Translation Without Parallel Data

Alexis Conneau, Guillaume Lample|arXiv (Cornell University)|Oct 11, 2017
Natural Language Processing Techniques参考文献 35被引用 251
一句话总结

论文提出一种无监督方法,通过对抗性训练将单语空间对齐以学习双语词嵌入,并通过Procrustes与CSLS进行细化,在多对语言中实现与监督方法相当甚至优越的结果,包括英语–世界语等遥远且低资源的对齐对。

ABSTRACT

State-of-the-art methods for learning cross-lingual word embeddings have relied on bilingual dictionaries or parallel corpora. Recent studies showed that the need for parallel data supervision can be alleviated with character-level information. While these methods showed encouraging results, they are not on par with their supervised counterparts and are limited to pairs of languages sharing a common alphabet. In this work, we show that we can build a bilingual dictionary between two languages without using any parallel corpora, by aligning monolingual word embedding spaces in an unsupervised way. Without using any character information, our model even outperforms existing supervised methods on cross-lingual tasks for some language pairs. Our experiments demonstrate that our method works very well also for distant language pairs, like English-Russian or English-Chinese. We finally describe experiments on the English-Esperanto low-resource language pair, on which there only exists a limited amount of parallel data, to show the potential impact of our method in fully unsupervised machine translation. Our code, embeddings and dictionaries are publicly available.

研究动机与目标

  • 使用仅有单语语料库,在不使用任何并行数据的情况下研究出一个构建双语词典的方法。
  • 通过对抗训练对齐单语词嵌入空间,并用Procrustes解进行细化。
  • 通过跨领域相似性度量(CSLS)缓解hubness并改善翻译检索。
  • 提供无监督模型选择标准并发布资源(词典与嵌入)。
  • 展示在多语言对上包括远距离和低资源语言的有效性。

提出的方法

  • 使用两个单语嵌入空间(每种语言一个),通过对抗训练学习线性映射W,以在无并行数据的情况下对齐它们。
  • 判别器试图区分映射后的源语言嵌入与目标语言嵌入;映射W则努力欺骗判别器(领域对抗目标)。
  • 通过从互最近邻构建合成双语词典并应用Procrustes解(正交W)来改进对齐,从而细化W。
  • 迭代地使用 mutualNNs 与基于CSLS的匹配来进一步细化W。
  • 引入CSLS(跨域相似性局部缩放)通过在两个领域中用邻域平均相似性调整相似性来降低hubness。
  • 对W应用正交性约束(通过明确的更新步骤)以保持单语嵌入属性。
  • 提出基于前若干高频词的CSLS推导翻译相似度的平均值的无监督模型选择标准,作为停止/超参数选择。

实验结果

研究问题

  • RQ1是否可以在没有任何跨语言监督或并行数据的情况下诱导出高质量的双语词典?
  • RQ2对抗对齐在多语言对中与有监督方法相比如何,涵盖遥远语言和非字母表共享语言?
  • RQ3CSLS 调整在双领域环境中是否能有效缓解 hubness 并提升检索准确性?
  • RQ4无监督模型选择是否能可靠地指示映射质量并指导超参数选择?
  • RQ5该方法在低资源语言对(如英语–世界语)及下游任务如句子检索和跨语言词相似度中的迁移能力如何?

主要发现

  • 无监督对抗对齐,随后进行Procrustes细化,在若干语言对上实现与有监督方法相比具有竞争力甚至更优的词翻译精度。
  • CSLS显著提升词翻译检索准确度,相较于标准最近邻匹配,在多语言上有显著提升(某些语言对约高达 ~7.2 个百分点)。
  • 使用 mutual nearest neighbors 构建的合成词典进行细化步骤带来显著提升,有时甚至超过有监督基线(如英语–意大利语与英语–西班牙语的P@1)。
  • 基于前频词的平均CSLS相似度的无监督模型选择标准与实际翻译质量相关,且可用于停止/超参数选择。
  • 该方法在遥远语言(如英语–俄语、英语–中文)表现良好,并且在低资源对如英语–世界语中实现了有竞争力的结果,在简单逐词翻译设置中获得可测量的BLEU增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。