[论文解读] Pre-training via Paraphrasing
MARGE 是一个多语言基于检索的预训练模型,通过检索并在相关文档上进行条件化来学习重构目标,从而在跨语言上实现强大的零样本和微调后性能。
We introduce MARGE, a pre-trained sequence-to-sequence model learned with an unsupervised multi-lingual multi-document paraphrasing objective. MARGE provides an alternative to the dominant masked language modeling paradigm, where we self-supervise the reconstruction of target text by retrieving a set of related texts (in many languages) and conditioning on them to maximize the likelihood of generating the original. We show it is possible to jointly learn to do retrieval and reconstruction, given only a random initialization. The objective noisily captures aspects of paraphrase, translation, multi-document summarization, and information retrieval, allowing for strong zero-shot performance on several tasks. For example, with no additional task-specific training we achieve BLEU scores of up to 35.8 for document translation. We further show that fine-tuning gives strong performance on a range of discriminative and generative tasks in many languages, making MARGE the most generally applicable pre-training method to date.
研究动机与目标
- 通过利用相关文档的多语言改写来推动超越掩码语言模型的预训练目标。
- 引入 MARGE,一种检索增强的 sequence-to-sequence 模型,经过训练以从检索证据文档中重构目标文本。
- 展示在多语言中的翻译、摘要、改写和问答任务上的零样本和微调性能。
- 证明该模型能够在随机初始化且不使用任务特定数据的情况下,联合学习检索与重构。
提出的方法
- 定义一个多源 seq2seq 模型,该模型对检索到的文档进行编码,在解码目标时以检索证据为条件。
- 通过文档编码器 g 学习一个相关性评分器 f(x, z),其余弦相似度用于使交叉注意力偏向相关的检索文档。
- 使用自编码器风格的重构损失进行训练,该损失在解码时条件化于检索文档及其相关性分数。
- 通过在分片内检索并将相关文档链接起来来构建批次,以最大化目标与证据的连通性。
- 在交叉注意力中实现一个可训练的偏置,在解码过程中纳入检索文档的相关性 f(xi, zj)。
- 在 CC-NEWS 和 Wikipedia 上进行规模化预训练,使用大型 Transformer 架构和渐进式优化。
实验结果
研究问题
- RQ1检索为基础的重构目标是否可以作为掩码语言模型的可行预训练替代方案?
- RQ2在多语言翻译、摘要和问答等任务上,联合检索与重构模型在零样本和微调性能方面能达到何种程度?
- RQ3将跨语言检索证据纳入对跨语言传输和文档级生成有何影响?
- RQ4在多语言设置中的检索式预训练有哪些局限性和领域依赖?
- RQ5在具有不同数据丰富度和语言相似性的语言上,所学习的检索组件表现如何?
主要发现
- MARGE 在不进行任务特定微调的情况下,对文档翻译的 BLEU 值达到高达 35.8。
- 在摘要和翻译任务上的零样本跨语言性能与强基线具有竞争力。
- 在 BUCC2018 和 Tatoeba 上的跨语言句子检索显示 MARGE 超过其他无监督模型。
- 改写任务 PAWS-X 显示 MARGE 在零样本迁移中的结果接近于最佳状态。
- 问答任务 MLQA 显示与 XLM-R 具有竞争力的结果,并在中文上表现出色。
- 对 MARGE 进行微调,在多种语言和任务上对比掩码语言模型时呈现出具有竞争力的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。