[论文解读] BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions
该论文提出了 BoolQ,这是一个自然出现的是/否问题与维基百科段落配对的数据集,显示这些问题需要较强的推理能力,迁移学习在比基线更高的性能中起到作用。
In this paper we study yes/no questions that are naturally occurring --- meaning that they are generated in unprompted and unconstrained settings. We build a reading comprehension dataset, BoolQ, of such questions, and show that they are unexpectedly challenging. They often query for complex, non-factoid information, and require difficult entailment-like inference to solve. We also explore the effectiveness of a range of transfer learning baselines. We find that transferring from entailment data is more effective than transferring from paraphrase or extractive QA data, and that it, surprisingly, continues to be very beneficial even when starting from massive pre-trained language models such as BERT. Our best method trains BERT on MultiNLI and then re-trains it on our train set. It achieves 80.4% accuracy compared to 90% accuracy of human annotators (and 62% majority-baseline), leaving a significant gap for future work.
研究动机与目标
- 动机并构建一个自然发生的是/否问题数据集,以测试推理阅读理解能力。
- 刻画回答这些问题所需的推理类型。
- 评估是/否问答的迁移学习策略,识别有效的预训练来源。
提出的方法
- 通过将 Natural Questions 数据集扩展为带有指明答案的段落的是/否问题来组装 BoolQ。
- 对问题进行可回答性和是/否标签的标注,并附带段落摘录。
- 尝试从蕴涵、改写和抽取式问答数据源进行迁移学习,包括无监督预训练。
- 在 BoolQ 上微调模型(循环神经网络、BERT、GPT 等),并比较单步 vs 多步预训练。
- 分析问题/段落信号,研究如 MultiNLI 等数据的预训练如何影响 BoolQ 表现。
实验结果
研究问题
- RQ1能否从需要非平凡推理的简短段落中可靠地回答自然出现的是/否问题?
- RQ2哪些外部数据源(蕴涵、问答、改写、无监督预训练)最适合迁移到 BoolQ?
- RQ3迁移学习与仅在 BoolQ 上训练相比如何,以及多步预训练对性能有何影响?
- RQ4对 BoolQ 最为关键的推理类型是什么(改写、事实推理、隐含/缺失提及等)?
- RQ5机器在 BoolQ 上的表现与人类准确率之间的差距有多大?
主要发现
| 转移任务 | 模型 | 转移数据 | 样本数 | 源准确率 | BoolQ 准确率 | |
|---|---|---|---|---|---|---|
| N/A | 多数基线 | - | - | - | 62.17 | 62.31 |
| N/A | 循环神经网络 | - | - | - | 69.60 | 67.52 |
| 提取式 QA | 循环神经网络 | QNLI | 108k | 79.66 | 71.36 | |
| SQuAD 2.0 | 130k | - | - | 69.45 | 69.83 | |
| NQ Long Answer | 93k | - | - | 71.78 | 72.78 | |
| 改写 | 循环神经网络 | QQP | 364k | 89.58 | 71.30 | |
| 启发式 Yes/No | 循环神经网络 | Y/N MS Marco | 39k | 87.26 | 71.40 | |
| 蕴涵 | 循环神经网络 | MultiNLI | 392k | 78.23 | 75.57 | |
| - 无蕴涵 | 262k | - | - | 84.26 | 72.95 | |
| - 无矛盾 | 262k | - | - | 81.16 | 72.85 | |
| - 中性 | 262k | - | - | 89.72 | 74.83 | |
| SNLI | - | SNLI | 351k | 88.17 | 73.16 | |
| MC QA | 循环神经网络 | RACE | 549k | 42.30 | 68.40 | |
| 无监督 | 循环神经网络 + ELMo | Billion Word | 1000M | - | 71.41 | |
| OpenAI GPT | - | Books | 800M | - | 72.87 | |
| BERT L | - | Books/Wikipedia | 3,300M | - | 76.90 |
- BoolQ 具有挑战性:最佳模型准确率为 80.43%,低于人类 90% 的准确率与多数基线 62.31% 的水平。
- 从蕴涵数据(MultiNLI、SNLI)进行迁移通常比从改写或抽取式问答数据获得更强的提升。
- 使用 BERT 的无监督预训练以及两步制(先在 MultiNLI 上预训练,再在 BoolQ 上微调)能带来显著提升,MultiNLI 为 BERT 提供正交信号。
- 单步从 MultiNLI 的迁移优于许多其他来源,MultiNLI 预训练再进行 BoolQ 微调的组合达到最佳结果。
- 仅问句模型表现较差,表明段落中携带的关键信息对答案预测至关重要。
- 与 BoolQ 格式相似的任务(如句子对)并非总是优于基于蕴涵的迁移;蕴涵数据仍然非常有益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。