[论文解读] Multilingual Extractive Reading Comprehension by Runtime Machine Translation
本论文构建了一个用于缺乏RC训练数据语言的抽取式阅读理解系统,通过在运行时将目标语言翻译为具有RC数据的枢轴语言,并通过对齐在原语言中恢复答案;在日语和法语SQuAD上优于回译基线。
Despite recent work in Reading Comprehension (RC), progress has been mostly limited to English due to the lack of large-scale datasets in other languages. In this work, we introduce the first RC system for languages without RC training data. Given a target language without RC training data and a pivot language with RC training data (e.g. English), our method leverages existing RC resources in the pivot language by combining a competitive RC model in the pivot language with an attentive Neural Machine Translation (NMT) model. We first translate the data from the target to the pivot language, and then obtain an answer using the RC model in the pivot language. Finally, we recover the corresponding answer in the original language using soft-alignment attention scores from the NMT model. We create evaluation sets of RC data in two non-English languages, namely Japanese and French, to evaluate our method. Experimental results on these datasets show that our method significantly outperforms a back-translation baseline of a state-of-the-art product-level machine translation system.
研究动机与目标
- 通过利用英语RC资源,使缺乏RC训练数据的语言实现抽取式RC。
- 提出一个白盒NMT+RC流水线,用于翻译、回答并对齐回目标语言。
- 通过日语和法语SQuAD评估验证有效性。
- 分析翻译质量、问题翻译的重要性,以及基于对齐的答案恢复。
提出的方法
- 使用双线性注意力训练一个从目标语言L到枢轴语言P的注意力NMT模型。
- 对翻译后的上下文和问题应用在P中训练的RC模型,以在P中获得答案段。
- 通过NMT注意力权重将P的答案段对齐回L,以映射起始/结束位置,从而在L中恢复答案。
- 在P中使用基于BiDAF的RC模型(增强如Self-Attention和英文中的ELMo)。
- 创建基于维基百科的L–P并行语料,以及对手动翻译的问题进行过采样,以改进问题翻译。
- 与回译基线进行比较,使用P到L翻译的上下文/问题和答案。
实验结果
研究问题
- RQ1是否可以通过利用英语RC模型和白盒NMT翻译器为没有RC训练数据的语言建立RC系统?
- RQ2所提出的运行时MT方法在非英语RC任务中与回译基线相比有何不同?
- RQ3问题翻译和基于对齐的恢复在多语言设置下的RC准确性中起什么作用?
- RQ4哪些关键翻译质量因素最影响下游RC性能?
主要发现
| 方法 | 日语 F1 | 日语 EM | 法语 F1 | 法语 EM |
|---|---|---|---|---|
| 我们的方法 | 52.19 | 37.00 | 61.88 | 40.67 |
| Google Translate 的回译 | 42.60 | 24.77 | 44.02 | 23.54 |
- 我们的方法在日语SQuAD上达到F1: 52.19和EM: 37.00,在法语SQuAD上达到F1: 61.88和EM: 40.67。
- 回译基线得分较低:日语F1 42.60 / 法语 44.02,日语EM 24.77 / 法语 23.54。
- 问题翻译质量和对手动翻译的问题的过采样显著提升RC性能。
- 消融研究表明去除自注意力/ELMo或省略问题翻译会显著降低RC指标。
- 过度翻译质量与基于对齐的恢复对于在目标语言中保持上下文和锚定至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。