[论文解读] SQuAD: 100,000+ Questions for Machine Comprehension of Text
SQuAD 引入了一个大规模的阅读理解数据集,包含众包问答对,其答案来自维基百科段落中的文本片段;一个逻辑回归模型达到 51.0% 的 F1,远低于人类的 86.8% F1,凸显了有待显著改进的空间。
We present the Stanford Question Answering Dataset (SQuAD), a new reading comprehension dataset consisting of 100,000+ questions posed by crowdworkers on a set of Wikipedia articles, where the answer to each question is a segment of text from the corresponding reading passage. We analyze the dataset to understand the types of reasoning required to answer the questions, leaning heavily on dependency and constituency trees. We build a strong logistic regression model, which achieves an F1 score of 51.0%, a significant improvement over a simple baseline (20%). However, human performance (86.8%) is much higher, indicating that the dataset presents a good challenge problem for future research. The dataset is freely available at https://stanford-qa.com
研究动机与目标
- 提供一个大规模且高质量的阅读理解数据集,以推进机器对文本的理解。
- 分析问题所需的推理类型和句法挑战。
- 建立基线模型并在基于段落的答案上评估人机性能。
提出的方法
- 对 536 篇维基百科段落进行 107,785 条问答对的众包。
- 开发一个具有词汇特征和依存树路径特征的逻辑回归模型,用以预测答案片段。
- 通过成分句法分析将候选答案限制为成分,以实现高效评分。
- 使用准确匹配和 F1 指标进行评估,并通过消融研究确定关键特征。
- 将性能与滑动窗口基线进行比较,并给出人类性能以作参考。
实验结果
研究问题
- RQ1SQuAD 问题涉及哪些推理类型和句法差异?
- RQ2基线机器学习模型在识别答案片段方面相比人类有多大差异?
- RQ3哪些特征推动该数据集中的基于片段的问答效果?
主要发现
| 方法 | 精确匹配(开发) | 精确匹配(测试) | F1(开发) | F1(测试) |
|---|---|---|---|---|
| 随机猜测 | 1.1% | 1.3% | 4.1% | 4.3% |
| 滑动窗口 | 13.2% | 12.5% | 20.2% | 19.7% |
| 滑动窗口 + 距离 | 13.3% | 13.0% | 20.2% | 20.0% |
| 逻辑回归 | 40.0% | 40.4% | 51.0% | 51.0% |
| 人类 | 80.3% | 77.0% | 90.5% | 86.8% |
- SQuAD 包含 107,785 条问答对,来自 536 篇文章,答案为段落中的文本片段。
- 最佳的逻辑回归模型在 v1.0 的开发集/测试集上达到 51.0% 的 F1,远低于人类的 86.8% F1。
- 词汇特征和依存路径特征对性能最重要。
- 与问题和答案句子之间的句法差异越大,性能越下降,这与人类不同。
- 大约 79.3% 的正确答案位于包含答案的句子内,主要挑战是定位精确的片段。
- SQuAD 的规模远超以往人工标注的阅读理解数据集,并为未来模型提供了稳健的挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。