[论文解读] Bridging Neural Machine Translation and Bilingual Dictionaries
本文提出两种方法,将双语词典(尤其是包含罕见或未登录词(OOV)的词典)整合到神经机器翻译(NMT)中。第一种方法使用混合词/字符模型,将罕见词重新编码为字符序列;第二种方法生成伪句对,以确保翻译词典中的词汇在训练中频繁出现。实验表明,两种方法均显著提升了翻译质量,若词典覆盖了罕见或未见词汇,超过70%的此类词汇可被正确翻译。
Neural Machine Translation (NMT) has become the new state-of-the-art in several language pairs. However, it remains a challenging problem how to integrate NMT with a bilingual dictionary which mainly contains words rarely or never seen in the bilingual training data. In this paper, we propose two methods to bridge NMT and the bilingual dictionaries. The core idea behind is to design novel models that transform the bilingual dictionaries into adequate sentence pairs, so that NMT can distil latent bilingual mappings from the ample and repetitive phenomena. One method leverages a mixed word/character model and the other attempts at synthesizing parallel sentences guaranteeing massive occurrence of the translation lexicon. Extensive experiments demonstrate that the proposed methods can remarkably improve the translation quality, and most of the rare words in the test sentences can obtain correct translations if they are covered by the dictionary.
研究动机与目标
- 解决在训练数据中缺失的罕见或未登录词(OOV)在神经机器翻译(NMT)中的翻译挑战。
- 将包含在并行训练数据中几乎从未出现过的罕见词汇的双语词典整合到NMT系统中。
- 设计数据转换机制,确保翻译词典中的词汇大规模且重复地出现在训练数据中,使NMT能够学习到准确的双语映射关系。
- 在处理低频词和未见词方面,超越强基线NMT模型。
- 评估合成数据与字符级建模是否能有效提升罕见词的翻译质量。
提出的方法
- 提出一种混合词/字符模型,将训练数据和词典中的罕见或OOV词重新标记为字符序列,使NMT能够学习子词级别的翻译映射。
- 设计一种数据合成模型,为每个翻译词典对生成大规模伪句对,确保在训练过程中罕见词翻译频繁出现。
- 以基于注意力机制的NMT与堆叠LSTM作为基础模型,其中上下文向量通过堆叠LSTM层计算,解码过程中应用注意力机制。
- 对OOV词应用字符级编码,将未登录词转换为字符序列,使模型能够泛化到未见过的词形。
- 将混合模型与数据合成模型结合为混合方法,结合两者优势以提升鲁棒性与覆盖度。
- 采用两阶段训练策略:先在合成数据上预训练,再在真实双语数据上微调,以最小化SMT生成翻译带来的噪声影响。
实验结果
研究问题
- RQ1若通过数据转换使罕见或OOV词在训练数据中频繁出现,NMT能否有效学习其翻译映射?
- RQ2与基于数据合成的方法相比,混合词/字符模型在将双语词典整合到NMT中的表现如何?
- RQ3合成句对在多大程度上能提升原始训练数据中不存在的罕见词的翻译质量?
- RQ4结合混合模型与数据合成模型是否优于单独使用任一方法?
- RQ5所提方法能否在强基线NMT模型基础上实现显著改进,特别是在处理未登录词方面?
主要发现
- 数据合成模型在罕见词和OOV词翻译方面显著优于混合词/字符模型,BLEU得分更高。
- 数据合成与混合建模相结合的混合模型整体表现最佳,在词汇表大小受限时,相比基线NMT模型提升0.88 BLEU分。
- 若测试集中罕见或未见词汇被双语词典覆盖,超过70%可被正确翻译,表明对OOV词具有强大的泛化能力。
- 性能提升并非源于词汇表扩大,因为控制实验显示词汇表缩小时BLEU下降0.88分,证实了所提方法的有效性。
- 使用SMT生成翻译的合成数据方法能有效整合词典知识,即使合成目标语句中存在自动翻译带来的噪声。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。