[论文解读] Cross-lingual Retrieval for Iterative Self-Supervised Training
CRISS 使用来自多语言模型的编码器输出,迭代地挖掘伪并行数据,以在没有带标注的并行数据的情况下改进跨语言对齐与翻译,在无监督MT和跨语言检索领域达到SOTA。
Recent studies have demonstrated the cross-lingual alignment ability of multilingual pretrained language models. In this work, we found that the cross-lingual alignment can be further improved by training seq2seq models on sentence pairs mined using their own encoder outputs. We utilized these findings to develop a new approach -- cross-lingual retrieval for iterative self-supervised training (CRISS), where mining and training processes are applied iteratively, improving cross-lingual alignment and translation ability at the same time. Using this method, we achieved state-of-the-art unsupervised machine translation results on 9 language directions with an average improvement of 2.4 BLEU, and on the Tatoeba sentence retrieval task in the XTREME benchmark on 16 languages with an average improvement of 21.5% in absolute accuracy. Furthermore, CRISS also brings an additional 1.8 BLEU improvement on average compared to mBART, when finetuned on supervised machine translation downstream tasks.
研究动机与目标
- 证明来自多语言去噪自编码器的编码器输出能够形成语言无关的表征,从而改善跨语言任务。
- 证明在单一并行语言对上的微调可以提升多语言方向的对齐。
- 开发一个迭代的挖掘-训练循环,联合发现伪并行数据并提升多语言模型。
- 在无监督和有监督机器翻译以及语句检索上评估 CRISS,以确立性能提升。
- 提供对预训练、多语言与双语训练的对比以及枢轴语言选择的洞见和消融分析。
提出的方法
- 使用 mBART 作为初始的多语言 Seq2Seq 预训练模型,以获得语言无关的句子表征。
- 通过对句子嵌入的 KNN 邻域计算基于边际的分数并选择高分对来挖掘伪并行数据(算法 1)。
- 在挖掘数据上对多语言 Transformer 进行迭代训练,并使用改进后的模型重复挖掘(算法 2)。
- 用目标语言标记扩增挖掘到的对,以使多语言机器翻译微调成为可能。
- 将挖掘方向限制在一个子集(例如 90 对语言对)以在可控计算量下获得强结果。
- 使用无监督 MT 基准测试、Tatoeba XTREME 风格的句子检索,以及有监督 MT 微调进行评估。
实验结果
研究问题
- RQ1是否可以通过自我挖掘的伪并行数据来改进由多语言去噪自编码器学习的跨语言句子表征?
- RQ2在单一语言对上的并行数据微调是否能提升所有方向的跨语言对齐?
- RQ3迭代挖掘-训练循环对无监督 MT 和跨语言检索性能的影响是什么?
- RQ4在使用挖掘到的伪并行数据时,多语言微调与双语微调策略有何差异?
- RQ5枢轴语言数量对检索和翻译质量有何影响?
主要发现
- CRISS 在9个语言方向的无监督 MT 取得最先进的结果,平均 BLEU 提升 2.4,相较于此前的方法。
- 在 XTREME Tatoeba 的跨 16 种语言检索中,CRISS 取得平均绝对准确度提升 21.5%。
- 在对有监督 MT 下游任务进行微调时,CRISS 相比于 mBART 平均提升 1.8 BLEU。
- 在单一语言对上的微调可以提高所有方向的跨语言对齐;迭代挖掘进一步提升性能。
- 多语言训练通常在下游 MT 任务的挖掘伪并行数据上优于双语训练。
- 使用较少数量的枢轴语言(最优大约在 2 左右,但测试到 4)在计算成本增加的情况下也能实现近似最优的增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。