[论文解读] Semi-Supervised QA with Generative Domain-Adaptive Nets
本文提出生成式域自适应网络(GDANs),一种半监督阅读理解框架,通过训练生成模型合成问题-答案对来利用未标注文本,并将这些合成数据与人工标注数据结合。该方法通过引入领域标签和强化学习实现领域自适应,使生成数据的分布与真实人类数据对齐,在SQuAD数据集上仅使用8,000个标注样本时,F1分数相比监督学习提升了9.87个百分点。
We study the problem of semi-supervised question answering----utilizing unlabeled text to boost the performance of question answering models. We propose a novel training framework, the Generative Domain-Adaptive Nets. In this framework, we train a generative model to generate questions based on the unlabeled text, and combine model-generated questions with human-generated questions for training question answering models. We develop novel domain adaptation algorithms, based on reinforcement learning, to alleviate the discrepancy between the model-generated data distribution and the human-generated data distribution. Experiments show that our proposed framework obtains substantial improvement from unlabeled text.
研究动机与目标
- 解决现实应用中标注阅读理解数据有限的挑战。
- 探究在标注数据稀缺时,未标注文本是否能有效提升阅读理解模型性能。
- 开发一种框架,弥合模型生成与人工生成阅读理解数据之间的分布差距。
- 通过半监督学习与生成数据增强,提升抽取式阅读理解模型的泛化能力与鲁棒性。
- 展示在阅读理解场景下,将领域自适应技术应用于生成模型输出的有效性。
提出的方法
- 利用语言学标签从未标注文本中提取答案片段,并训练生成模型生成问题。
- 在判别式模型训练过程中引入领域标签,以区分人工生成与模型生成的QA对。
- 通过领域标签对判别式QA模型进行条件化,使其学习领域不变与领域特定的表征。
- 采用强化学习通过对抗方式微调生成模型,以最小化判别式模型的损失。
- 将人工标注的QA对与生成的QA对结合,训练最终的判别式QA模型。
- 采用一种简单基线方法,结合未标注文本与仅上下文监督,以建立性能下限。
实验结果
研究问题
- RQ1当标注数据有限时,未标注文本是否能有效用于提升抽取式阅读理解模型?
- RQ2如何缓解模型生成与人工生成QA数据之间的分布差异,以提升下游性能?
- RQ3领域自适应技术——特别是领域标签与对抗训练——在半监督阅读理解中在多大程度上提升了泛化能力?
- RQ4所提出的GDAN框架与GAN和对偶学习等强基线方法相比表现如何?
- RQ5生成数据与领域自适应微调的结合是否能在不同标注率与未标注数据规模下持续带来性能提升?
主要发现
- 在SQuAD数据集上,仅使用8,000个标注样本时,GDAN框架相比监督学习F1分数提升了9.87个百分点。
- 当使用500万条未标注样本与10%的标注数据时,GDAN相比监督学习F1分数提升了11.75个百分点。
- 采用领域标签与对抗微调的模型(Gen + domain + adv)在SQuAD上使用90%标注数据与500万条未标注样本时,达到最高F1分数0.6670。
- 所提出的基线方法(仅使用上下文监督)仍带来显著性能提升,表明即使不进行完整生成建模,未标注文本也具有重要价值。
- 通过领域标签与强化学习实现的领域自适应显著缩小了生成数据与真实数据之间的性能差距,优于标准GAN与对偶学习基线。
- 该框架在所有测试的标注率与未标注数据规模下均持续提升性能,展现出良好的鲁棒性与可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。