[论文解读] Learning Recurrent Span Representations for Extractive Question Answering
RaSoR 引入循环跨度表示,明确对段落中的所有可能答案跨度进行评分,实现全局归一化和精确解码,超越以往基于跨度的方法提升 SQuAD 的精确匹配( EM)和 F1。
The reading comprehension task, that asks questions about a given evidence document, is a central problem in natural language understanding. Recent formulations of this task have typically focused on answer selection from a set of candidates pre-defined manually or through the use of an external NLP pipeline. However, Rajpurkar et al. (2016) recently released the SQuAD dataset in which the answers can be arbitrary strings from the supplied text. In this paper, we focus on this answer extraction task, presenting a novel model architecture that efficiently builds fixed length representations of all spans in the evidence document with a recurrent network. We show that scoring explicit span representations significantly improves performance over other approaches that factor the prediction into separate predictions about words or start and end markers. Our approach improves upon the best published results of Wang & Jiang (2016) by 5% and decreases the error of Rajpurkar et al.'s baseline by > 50%.
研究动机与目标
- 推动在 SQuAD 上的抽取式问答,其中答案是来自文档的任意跨度。
- 提出一个显式表示并对所有候选跨度进行评分的模型。
- 实现对跨度的全局归一化和无需贪婪搜索的精确解码。
- 展示相对于先前基于跨度和基于序列的问答模型的改进。
提出的方法
- 为所有候选跨度定义一个概率分布,并用跨度级神经分数对每个进行评分。
- 通过连接段落嵌入与段落对齐的和段落无关的的问题表示,构建面向问题的段落嵌入。
- 使用段落级 BiLSTM 高效编码所有候选跨度,以便在共享子结构之间重用计算。
- 用起始和结束位置的 BiLSTM 输出的拼接来表示每个跨度,记作 h_a。
- 通过 s_a = w_a · FFNN(h_a) 计算跨度分数,并对所有跨度进行 softmax 归一化。
- 通过最大化正确跨度的对数似然值进行端到端训练。
实验结果
研究问题
- RQ1对每个潜在答案跨度进行显式建模与评分,是否比端到端的起始/结束预测模型提升问答性能?
- RQ2不同的问题表示(段落对齐 vs. 段落无关)如何影响基于跨度的问答性能?
- RQ3哪种学习目标最符合预测精确答案跨度的任务?
主要发现
| 系统 | Dev 的 EM | Dev 的 F1 | Test 的 EM | Test 的 F1 |
|---|---|---|---|---|
| Logistic regression baseline | 39.8 | 51.0 | 40.4 | 51.0 |
| Match-LSTM (Sequence) | 54.5 | 67.7 | 54.8 | 68.0 |
| Match-LSTM (Boundary) | 60.5 | 70.7 | 59.4 | 70.0 |
| RaSoR | 66.4 | 74.9 | 67.4 | 75.5 |
| Human | 81.4 | 91.0 | 82.3 | 91.2 |
- RaSoR 在 Dev 上的 EM 66.4、F1 74.9;Test 上的 EM 67.4、F1 75.5,超过最佳先前公开发表的系统的 EM 和 F1。
- RaSoR 相对于 SQuAD 的逻辑回归基线,将误差降低了超过 50%。
- RaSoR 相较于最强的 Match-LSTM 基线,在 Dev 的 EM 提高约 5 个点,F1 提高 3.6 点,接近人类性能上限的差距缩小超过 50%。
- 在消融实验中,段落对齐的问题表示对性能至关重要,而段落无关的表示提供的贡献较小但仍然是正向的。
- 对端点之间的交互建模(跨度级 FFNN)在精确匹配方面优于仅端点变体,尤其对较长跨度更明显。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。