Skip to main content
QUICK REVIEW

[论文解读] Data Augmentation for BERT Fine-Tuning in Open-Domain Question Answering

Wei Yang, Yuqing Xie|arXiv (Cornell University)|Apr 14, 2019
Topic Modeling参考文献 21被引用 37
一句话总结

这篇论文为端到端开放领域问答中的 BERT 引入了 distant-supervision 数据增强,并显示使用带增强数据(包括负例)的阶段式微调相较于 BERTserini,在英文和中文数据集上取得显著提升。

ABSTRACT

Recently, a simple combination of passage retrieval using off-the-shelf IR techniques and a BERT reader was found to be very effective for question answering directly on Wikipedia, yielding a large improvement over the previous state of the art on a standard benchmark dataset. In this paper, we present a data augmentation technique using distant supervision that exploits positive as well as negative examples. We apply a stage-wise approach to fine tuning BERT on multiple datasets, starting with data that is "furthest" from the test data and ending with the "closest". Experimental results show large gains in effectiveness over previous approaches on English QA datasets, and we establish new baselines on two recent Chinese QA datasets.

研究动机与目标

  • 通过更好的数据准备,而非新模型架构,来推动端到端开放领域 QA 的改进。
  • 探索 distant supervision 如何创建面向检索框架的问句-段落训练对。
  • 评估使用多样源数据和增强数据集的阶段式微调策略。
  • 展示在英文和中文问答数据集的增强中包含负例的影响。

提出的方法

  • 使用相同的 BERTserini 阅读器设置,通过 BM25 进行段落级检索,并在每个候选段落上使用一个 BERT 阅读器。
  • 构建增强训练数据 via distant supervision:DS(+) 使用正样本,DS(±) 包含来自前 n 个检索段落但不包含答案的负样本。
  • 以阶段顺序微调 BERT:从与测试数据最远的数据集到最近的数据集,而不是把所有数据混合在一起。
  • 通过保留集调整将检索器和阅读器分数结合的插值参数 mu。
  • 在 SQuAD、TriviaQA、CMRC、DRCD 上使用 EM 和 F1 评估端到端 QA,检索段落的召回率(R)。

实验结果

研究问题

  • RQ1遥距监督数据增强是否能超越基线 BERTserini 设置,提升端到端开放领域 QA?
  • RQ2在远程监督中包含负样本对 QA 微调有何影响?
  • RQ3阶段式微调策略(最远到最近)是否优于跨数据集的联合微调?
  • RQ4该增强方法在具有不同体裁和来源的英文和中文问答数据集上的表现如何?

主要发现

  • 使用 DS(+) 进行训练增强在 SQuAD 上相对于仅源数据基线提高 EM 和 F1(SRC: 41.8 EM, DS(+: 44.0 EM, F1 51.4)。
  • 包含负样本(DS(±))带来更大的提升(SQuAD:EM 提升至 48.7,F1 56.5),超过仅正样本增强。
  • 阶段式调优 DS(±) → SRC 比混合数据(SRC → DS(±) 也有效)效果更好,在 SQuAD 上领先 prior BERTserini 超过十点。
  • TriviaQA 显示增强有帮助,DS(±) 达到 EM 54.4 和 F1 60.2,阶段式调优在组合中提供最佳结果。
  • 中文数据集 CMRC 和 DRCD 也从 DS(±) 和阶段式调优中受益,在大多数设置下 DS(±) 与 SRC+DS(±) 产生最强的端到端性能。
  • 总体而言,使用带负样本的 distant supervision 以及由最远到最近的微调序列,在英文和中文数据集上持续提升端到端 QA。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。