[论文解读] Enhancing Cross-lingual Transfer by Manifold Mixup
X-Mixup 通过在源语言与目标语言之间执行跨语言流形混合,降低跨语言表示差异,从而在 XTREME 上整体提升约 1.8%,缩小迁移差距。
Based on large-scale pre-trained multilingual representations, recent cross-lingual transfer methods have achieved impressive transfer performances. However, the performance of target languages still lags far behind the source language. In this paper, our analyses indicate such a performance gap is strongly associated with the cross-lingual representation discrepancy. To achieve better cross-lingual transfer performance, we propose the cross-lingual manifold mixup (X-Mixup) method, which adaptively calibrates the representation discrepancy and gives a compromised representation for target languages. Experiments on the XTREME benchmark show X-Mixup achieves 1.8% performance gains on multiple text understanding tasks, compared with strong baselines, and significantly reduces the cross-lingual representation discrepancy.
研究动机与目标
- 通过高资源语言与低资源语言之间持续存在的跨语言迁移差距来激发本研究。
- 探究在一个通用多语言空间中的表示差异是否解释了迁移差距。
- 提出一种在训练和推理过程中显式缓解跨语言差异的方法。
- 证明通过混合实现的校准表示在跨语言理解任务中具有改进作用。
提出的方法
- 引入跨语言流形混合(X-Mixup),在选定的编码器层内对并行的源/目标表示进行混合。
- 计算一个基于跨语言注意力的混合步骤,其中目标隐藏状态对源表示进行注意并与目标表示线性插值。
- 使用依赖翻译熵(H(A))和学习参数的自适应混合比 lambda 来建模翻译质量,确保更鲁棒的混合。
- 引入计划抽样以使训练/推断分布对齐并降低暴露偏差。
- 定义一个联合训练目标,将任务损失与表示和预测一致性损失结合起来,以对齐源/目标表示。
实验结果
研究问题
- RQ1跨语言表示差异是否可以预测不同语言之间的跨语言迁移性能?
- RQ2通过流形混合显式降低跨语言表示差异是否可提升 XTREME 任务的零资源迁移?
- RQ3混合比、计划抽样和一致性损失如何共同影响跨语言迁移的性能和鲁棒性?
- RQ4对于不同任务类型,哪一层编码器最适合实现跨语言流形混合?
主要发现
| 模型 | XNLI (Acc) | PAWS-X (Acc) | POS (F1) | NER (F1) | XQuAD (F1/EM) | MLQA (F1/EM) | TyDiQA (F1/EM) | Avg |
|---|---|---|---|---|---|---|---|---|
| XLM-R (Hu et al., 2020) | 79.2 | 86.4 | 73.8 | 65.4 | 76.6/60.8 | 71.6/53.2 | 65.1/45.0 | 70.1 |
| Trans-train (Wei et al., 2020) | 82.9 | 90.1 | 74.6 | 66.8 | 80.4/65.6 | 72.4/54.7 | 66.2/48.2 | 72.6 |
| Filter (Fang et al., 2020) | 83.9 | 91.4 | 76.2 | 67.7 | 82.4/68.0 | 76.2/57.7 | 68.3/50.9 | 74.4 |
| xTune (Zheng et al., 2021) | 84.8 | 91.6 | 79.3† | 69.9† | 82.5/69.0† | 75.0/57.1† | 75.4/60.8† | 76.5 |
| X-Mixup | 85.3 | 91.8 | 78.4 | 69.0 | 82.6/69.3 | 76.5/58.1 | 69.0/52.8 | 75.5 |
| mBERT (Hu et al., 2020) | 65.4 | 81.9 | 71.5 | 62.2 | 64.5/49.4 | 61.4/44.2 | 59.7/43.9 | 63.2 |
| Trans-train (Hu et al., 2020) | 75.1 | 88.9 | - | - | 72.4/58.3 | 67.6/49.8 | 59.5/45.8 | - |
| X-Mixup (mBERT) | 78.8 | 89.7 | 76.5 | 65.0 | 73.3/58.9 | 69.0/50.9 | 60.8/46.5 | 70.0 |
- X-Mixup 在多语言和多种骨干网络上实现了 XTREME 任务的平均提升约 1.8%。
- X-Mixup 通过语言质心分析和更高的 CKA 分数显著降低了跨语言表示差异。
- X-Mixup 在 XLM-R 与 mBERT 骨干网络上持续优于强基线,如 Translate-train 和 Filter。
- 消融研究表明所有主要组成部分(混合、计划抽样、一致性损失)均对提升有贡献,且在正确的层次的混合对任务具有依赖性。
- 与某些基线相比,X-Mixup 将跨语言迁移差距缩小最多约 40%,并在若干数据集上实现最小差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。