[论文解读] Learning to Answer by Learning to Ask: Getting the Best of GPT-2 and BERT Worlds
本文提出一个协同端到端框架,结合 GPT-2 进行问题生成和 BERT 进行问题回答,以提升 QA 和 QG,并在 SQuAD 上显示半监督增益。
Automatic question generation aims at the generation of questions from a context, with the corresponding answers being sub-spans of the given passage. Whereas, most of the methods mostly rely on heuristic rules to generate questions, more recently also neural network approaches have been proposed. In this work, we propose a variant of the self-attention Transformer network architectures model to generate meaningful and diverse questions. To this end, we propose an easy to use model consisting of the conjunction of the Transformer decoder GPT-2 model with Transformer encoder BERT for the downstream task for question answering. The model is trained in an end-to-end fashion, where the language model is trained to produce a question-answer-aware input representation that facilitates to generate an answer focused question. Our result of neural question generation from text on the SQuAD 1.1 dataset suggests that our method can produce semantically correct and diverse questions. Additionally, we assessed the performance of our proposed method for the downstream task of question answering. The analysis shows that our proposed generation & answering collaboration framework relatively improves both tasks and is particularly powerful in the semi-supervised setup. The results further suggest a robust and comparably lean pipeline facilitating question generation in the small-data regime.
研究动机与目标
- 激发自动化问题生成 (QG) 的动机,以支持和改进问题回答 (QA)。
- 利用 GPT-2(生成)与 BERT(判别性 QA)的互补优势,创建一个联合的 QG-QA 循环。
- 通过使用 QA 反馈来细化问题生成,从而实现 QG 的半监督学习。
- 提出将 QA 作为评估 QG 质量的代理指标,超越词汇相似性指标。
- 在 SQuAD 1.1 上展示该方法的鲁棒性和数据效率。
提出的方法
- 对 GPT-2 进行微调,使其在给定上下文和带注释的答案的条件下生成问题,并使用特殊标记来限定答案(式2及第2.2节所述的条件)。
- 对 BERT 进行 QA 微调,在给定上下文和问题时预测答案片段,作为 QA 反馈模块(第2.3节)。
- 创建一个端到端的协同循环,其中 GPT-2 生成问题并通过 QA 接收反馈;仅通过 GPT-2 参数回传(不通过 BERT),以提高生成质量(第2.3节)。
- 将数据分为 X_a(可回答)和 X_-a(不可回答)集合,并在回放 X_a 的同时逐步缩小 X_-a 以稳定训练(第2.3节)。
- 将生成问题上的 QA 表现作为 QG 质量的代理度量,辅以 BLEU/ROUGE 指标(第3.2节)。
- 在 SQuAD v1.1 上对 GPT-2 进行 QG 的预训练,对 BERT 进行 QA 的预训练,然后进行有监督预训练,随后在不同标注率下进行半监督评估(第3节)。
实验结果
研究问题
- RQ1基于 GPT-2 的 QG 模型是否能从 QA 系统(BERT)提供的反馈信号中受益,以提升问题的多样性和相关性?
- RQ2协同的 QG-QA 框架是否提高 QA 性能,并在少标注场景下实现有效的半监督学习?
- RQ3在生成的问题上,QA 性能是否可以作为评估 QG 质量的可行代理度量,超越词汇相似性?
- RQ4QA 模块的选择(BERT 与 GPT-2 风格的 QA 头)如何影响 QG 反馈循环的有效性?
主要发现
- 所提出的 GPT-2/BERT 协作在生成问题方面获得比基线更高的 BLEU/ROUGE 分数,同时在 SQuAD 1.1 上实现具有竞争力的 QA 表现。
- 使用 BERT 反馈循环在生成问题上训练的 QA 表现接近真实 QA 基准,并明显优于依赖普通 GPT-2 生成的基线。
- 在半监督设置下,该方法在标注率(10%、20%、50%、90%)上优于先前的半监督 QA 方法,在较高标注率时差距更大。
- 将 BERT 作为 QA 反馈模块提供比使用 GPT-2 风格 QA 头更强的引导和更丰富的 QG 多样性,因为它具备上下文特定的双向嵌入。
- 基于 QA 的代理评估表明,即使与真实答案的词汇相似性较低,生成的问题也能提升 QA 的鲁棒性和泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。