[论文解读] Multilingual Neural Machine Translation With Soft Decoupled Encoding
本文提出 Soft Decoupled Encoding (SDE),是一种多语言词汇表示,分别对单词拼写通过字符 n-gram 建模、对共享语义通过潜在空间建模,在不进行子词分割的情况下,在四对低资源语言对上达到最新研究水平。
Multilingual training of neural machine translation (NMT) systems has led to impressive accuracy improvements on low-resource languages. However, there are still significant challenges in efficiently learning word representations in the face of paucity of data. In this paper, we propose Soft Decoupled Encoding (SDE), a multilingual lexicon encoding framework specifically designed to share lexical-level information intelligently without requiring heuristic preprocessing such as pre-segmenting the data. SDE represents a word by its spelling through a character encoding, and its semantic meaning through a latent embedding space shared by all languages. Experiments on a standard dataset of four low-resource languages show consistent improvements over strong multilingual NMT baselines, with gains of up to 2 BLEU on one of the tested languages, achieving the new state-of-the-art on all four language pairs.
研究动机与目标
- 通过改进低资源语言的词汇表示来降低多语言 NMT 的数据稀疏性。
- 在不使用激进子词分割的情况下实现跨语言的词汇信息共享。
- 提出两组件的单词表示:通过字符 n-gram 的拼写表示和通过共享潜在空间的语言无关语义表示。
- 展示 SDE 相较于强基线和先前的潜在嵌入方法在 TED 数据上的优越性。
提出的方法
- 用跨语言共享的基于字符 n-gram 的词汇嵌入来表示一个单词。
- 应用语言特定的转换以对齐不同语言之间的拼写。
- 通过从语言特定的拼写对注意力聚焦到共享语义空间来计算潜在语义嵌入,并通过残差连接形成 SDE 嵌入。
- 在不进行子词预处理的标准 seq2seq NMT 框架内进行训练。
- 将 SDE 与基于单词的、基于子词的基线以及 Gu 等人(2018)的潜在嵌入方法在多语言设置下进行对比。
实验结果
研究问题
- RQ1一个软解耦的单词拼写与语义意义是否能够提升多语言 NMT 的跨语言迁移?
- RQ2在避免子词分段的同时共享潜在语义空间是否能为低资源语言带来更好的翻译质量?
- RQ3在多语言对中,SDE 相对于强基线的子词和潜在嵌入方法表现如何?
- RQ4SDE 的每个组件(词汇嵌入、语言特定转换、潜在语义嵌入)对翻译质量有何影响?
主要发现
| 词素单元 | 模型 | aze | bel | glg | slk |
|---|---|---|---|---|---|
| 词 | 查找 | 7.66 | 13.03 | 28.65 | 25.24 |
| Sub-joint | 查找 | 9.40 | 11.72 | 22.67 | 24.97 |
| Sub-sep | 查找 (Neubig & Hu, 2018) | 10.90 | 16.17 | 28.10 | 28.50 |
| Sub-sep | UniEnc (Gu et al., 2018) | 4.80 | 8.13 | 14.58 | 12.09 |
| Word | SDE | 11.82 | 18.71 | 30.30 | 28.77 |
- SDE 在四对低资源语言对上优于强基线,至少在一个语言上实现了最高可达 2BLEU 的提升。
- SDE 避免子词分段,仍在所有测试语言对上达到最新研究水平。
- 消融实验表明三个组件(词汇嵌入、潜在语义嵌入、语言特定转换)均有贡献,潜在语义和词汇嵌入尤为重要。
- 在包含四个高资源语言的训练中,相较于双语训练,SDE 对某些低资源语言(如 bel)有性能提升。
- 基于子词的 SDE 变体通常不如使用 SDE 的词汇单位在翻译质量上的优势,凸显了无清晰分段的共享的好处。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。