[论文解读] Coarse-grain Fine-grain Coattention Network for Multi-evidence Question Answering
介绍了用于多证据问答的 Coarse-grain Fine-grain Coattention (CFC) 网络,将对多份文档的粗粒度推理与对候选项的细粒度推理相结合,在 WikiHop 上无需预训练编码器即可达到最新效果,并改进 TriviaQA 重排序。
End-to-end neural models have made significant progress in question answering, however recent studies show that these models implicitly assume that the answer and evidence appear close together in a single document. In this work, we propose the Coarse-grain Fine-grain Coattention Network (CFC), a new question answering model that combines information from evidence across multiple documents. The CFC consists of a coarse-grain module that interprets documents with respect to the query then finds a relevant answer, and a fine-grain module which scores each candidate answer by comparing its occurrences across all of the documents with the query. We design these modules using hierarchies of coattention and self-attention, which learn to emphasize different parts of the input. On the Qangaroo WikiHop multi-evidence question answering task, the CFC obtains a new state-of-the-art result of 70.6% on the blind test set, outperforming the previous best by 3% accuracy despite not using pretrained contextual encoders.
研究动机与目标
- 通过在多份文档中聚合信息来解决多证据问题回答。
- 开发一种将粗粒度与细粒度推理分离的模型,以处理长文档集合。
- 利用分层共注意力和自注意力对表示进行条件化处理,使其依赖于查询和候选项。
- 在 WikiHop 和 TriviaQA 上进行评估,以展示相较于先前方法的改进。
- 分析注意力层级结构与错误类型以理解模型行为。
提出的方法
- 提出一个两模块架构:一个粗粒度模块通过共注意力构建支持文档与查询的相互依赖表示,并通过自注意力生成粗略摘要。
- 提出一个与候选项相关的细粒度模块,在每个候选项上定位提及,计算与查询在这些提及上的共注意力上下文,并总结以对候选项进行评分。
- 在两个模块中使用分层共注意力和自注意力,以聚焦输入的不同部分。
- 使用 BiGRU 基编码器对查询、支持文档与候选项进行编码;对共注意力输出应用粗粒度自注意力;在候选项提及上应用细粒度机制并通过词汇匹配实现指代抽取;将粗粒度分数与细粒度分数相加以进行最终候选项评分。
- 使用交叉熵损失进行训练;在 WikiHop(未遮罩与遮罩)和 TriviaQA 上进行评估;与基线方法及消融模型进行比较。
实验结果
研究问题
- RQ1是否通过在多文档之间显式建模粗粒度到细粒度的推理可以提升多证据问答的效果?
- RQ2分层的共注意力和自注意力是否能够在不使用预训练编码器的情况下更好地聚合长文档集合?
- RQ3粗粒度与细粒度的划分如何影响 WikiHop 与 TriviaQA 的性能和错误模式?
主要发现
- CFC 在 WikiHop 盲测上达到 70.6% 的准确率,较此前最佳在不使用预训练上下文编码器的情况下提升 3 个百分点。
- 在 WikiHop 开发集上,CFC 达到 66.4%(Dev)和 72.1%(Masked Dev)。
- 用 CFC 对 TriviaQA 进行重排序,在开发集上 EM 提升 3.1%,F1 提升 3.0%。
- 消融研究表明粗粒度和细粒度模块都对性能有显著贡献;移除任一模块都会降低结果。
- 自注意力和上下文编码至关重要;将编码器 GRU 换为单向变体或使用均值池化会降低性能。
- 在处理大量长文档时,细粒度模型表现出色;在文档数量较少时,粗粒度模型占主导。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。