QUICK REVIEW

[论文解读] Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question Answering

Arij Riabi, Thomas Scialom|arXiv (Cornell University)|Oct 23, 2020

Topic Modeling参考文献 54被引用 25

一句话总结

本文提出了一种用于零样本跨语言问答的合成数据增强方法，通过在SQuAD数据集上微调的问答生成模型与翻译流水线，生成多语言问题。该方法在XQuAD和MLQA等多语言基准测试中显著提升性能，达到新的最先进水平，并且在无需额外标注数据的情况下，有效泛化至未见过的语言（如法语、意大利语和韩语）。

ABSTRACT

Coupled with the availability of large scale datasets, deep learning architectures have enabled rapid progress on the Question Answering task. However, most of those datasets are in English, and the performances of state-of-the-art multilingual models are significantly lower when evaluated on non-English data. Due to high data collection costs, it is not realistic to obtain annotated data for each language one desires to support. We propose a method to improve the Cross-lingual Question Answering performance without requiring additional annotated data, leveraging Question Generation models to produce synthetic samples in a cross-lingual fashion. We show that the proposed method allows to significantly outperform the baselines trained on English data only. We report a new state-of-the-art on four multilingual datasets: MLQA, XQuAD, SQuAD-it and PIAF (fr).

研究动机与目标

解决多语言问答模型在非英语语言上评估时性能差距的问题，尽管其仅在英语数据上进行训练。
克服低资源语言多语言问答数据标注成本高且稀缺的问题。
探究合成数据生成是否能增强多语言问答模型的跨语言迁移能力。
评估该方法在未包含于合成训练数据中的语言上的泛化能力。
通过在问答和问答生成任务中均使用相同模型架构（MiniLM），避免蒸馏偏差，实现公平比较。

提出的方法

在SQuAD数据集上微调多语言问答生成模型，以生成英语的合成问题。
使用预训练的神经机器翻译系统，将生成的英语问题翻译成多种目标语言。
通过将翻译后的问题与原始SQuAD数据中的对应答案配对，构建合成的多语言问答样本。
在合成的多语言数据上微调多语言问答模型（如MiniLM、XLM-R），以提升跨语言迁移能力。
采用两阶段训练设置：首先在英语上训练问答生成器，然后利用其在多种语言中生成合成数据。
通过将生成问题的BLEU-4分数与下游问答性能进行相关性分析，评估合成数据质量的影响。

实验结果

研究问题

RQ1在无需额外标注数据的情况下，合成数据生成能否提升零样本跨语言问答性能？
RQ2生成问题的质量（以BLEU-4衡量）是否与多语言基准测试中的下游问答性能相关？
RQ3所提出的方法能否泛化到未包含在合成训练数据中的语言，如法语、意大利语和韩语？
RQ4问答生成与问答模型架构的选择如何影响性能提升，特别是如何避免蒸馏偏差？
RQ5合成数据增强在合成数据创建过程中未见过的语言上，能多大程度上提升跨语言迁移能力？

主要发现

当使用MiniLM和合成数据时，该方法在XQuAD上达到新的最先进水平，精确匹配（Exact Match）提升20个百分点（从29.5提升至49.5），在MLQA上提升15.4个百分点（从26.0提升至41.4）。
在合成数据上微调的XLM-R模型在PIAF（fr）上达到新的最先进水平，甚至优于单语CamemBERT模型。
在未见过的语言（如韩语KorQuAD和意大利语SQuAD-it）上，该方法相比零样本基线表现出显著提升，表明具有有效的跨语言泛化能力。
生成问题的BLEU-4分数与问答性能之间存在显著的皮尔逊相关性（r = 0.65，p < .001），表明问题质量直接影响模型性能。
在XQuAD上，MiniLM的精确匹配指标相对于基线的相对提升超过60%，表明合成数据显著增强了模型泛化能力。
该方法优于先前工作（如Shakeri et al., 2020），通过在问答和问答生成任务中均使用相同模型架构（MiniLM），确保了对数据增强方法真实影响的更公平评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。