QUICK REVIEW

[论文解读] Synthetic Spoken Data for Neural Machine Translation.

Hany Hassan, Mostafa ElAraby|arXiv (Cornell University)|Jul 1, 2017

Natural Language Processing Techniques被引用 2

一句话总结

本文提出一种语言无关的方法，通过使用单语分布式表示的局部嵌入投影，生成神经机器翻译用的合成口语方言平行语料。通过将书面语平行语料转换为口语方言变体，该方法在亚拉伯语方言（黎凡特语）到英语的翻译任务中，将翻译性能提升了超过2.8 BLEU分，从而实现了低资源口语方言的有效神经机器翻译。

ABSTRACT

Spoken language translation is usually limited by the non-availability of the parallel data. We generate synthetic data for Neural Machine Translation of Spoken-Dialects. We introduce a novel approach to generate synthetic data for training Neural Machine Translation systems. The proposed approach transforms a given parallel corpus between a written language and a target language to a parallel corpus between a spoken dialect variant and the target language. In this paper, we introduce a novel approach to generate synthetic data for training Neural Machine Translation systems. The proposed approach transforms a given parallel corpus between a written language and a target language to a parallel corpus between a spoken dialect variant and the target language. Our approach is language independent and can be used to generate data for any variant of the source language such as slang or spoken dialect or even for a different language that is closely related to the source language. The proposed approach is based on local embedding projection of distributed representations which utilizes monolingual embeddings to transform parallel data across language variants. We report experimental results on Levantine to English translation using Neural Machine Translation. We show that the generated data can improve a very large scale system by more than 2.8 Bleu points using synthetic spoken data which shows that it can be used to provide a reliable translation system for a spoken dialect that does not have sufficient parallel data.

研究动机与目标

解决神经机器翻译中口语方言平行训练语料稀缺的问题。
为缺乏足够平行语料的低资源口语方言构建可靠的翻译系统。
开发一种语言无关的方法，用于在书面语言与口语方言变体之间合成平行语料。
利用单语嵌入将平行语料在语言变体之间投影，而无需依赖平行单语语料。
在大规模翻译系统上证明合成语料在提升神经机器翻译性能方面的有效性。

提出的方法

利用书面语言和目标口语方言的单语语料中的分布式表示（词嵌入）。
应用局部嵌入投影，利用对齐信息将词向量从书面语言空间映射到口语方言空间。
将现有的书面语言与目标语言之间的平行语料，转换为口语方言与目标语言之间的新平行语料。
在转换过程中保持语义和句法关系，以确保合成的平行句子质量高。
在合成的口语方言平行语料以及现有平行语料上联合训练神经机器翻译模型。
确保该方法可适用于任何语言变体，包括俚语或关系密切的语言，且无需额外的平行语料。

实验结果

研究问题

RQ1能否仅使用单语嵌入，从书面语言平行语料中有效生成合成口语方言平行语料？
RQ2合成语料在多大程度上能提升低资源口语方言的神经机器翻译性能？
RQ3所提出的方法在不同语言变体（包括俚语和关系密切的语言）上的泛化能力如何？
RQ4合成语料是否保持了足够的语言质量，从而提升翻译系统性能？
RQ5该方法是否能在不依赖额外平行单语语料或平行口语语料的情况下，实现显著的BLEU分数提升？

主要发现

所提出的方法仅使用单语嵌入，成功生成了书面语言与口语方言之间的高质量合成平行语料。
合成语料使大规模神经机器翻译系统在黎凡特语到英语的翻译任务中性能提升超过2.8 BLEU分。
该方法具有语言无关性，可适用于任何口语方言变体，包括俚语或关系密切的语言。
该方法无需平行单语语料或额外的平行语料，因此在低资源环境下具有可扩展性和实用性。
性能提升证明了合成语料在仅使用极少平行训练数据的情况下，构建可靠口语方言翻译系统的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。