[论文解读] Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Graph Neural Networks
该论文在段落上构建带有三种边类型(同实体、指代、窗口)的图结构表示,并应用图神经网络(GRN/GCN)进行证据整合以实现多跳阅读理解,在WikiHop和ComplexWebQuestions上取得了超越额外标注的最新最佳结果。
Multi-hop reading comprehension focuses on one type of factoid question, where a system needs to properly integrate multiple pieces of evidence to correctly answer a question. Previous work approximates global evidence with local coreference information, encoding coreference chains with DAG-styled GRU layers within a gated-attention reader. However, coreference is limited in providing information for rich inference. We introduce a new method for better connecting global evidence, which forms more complex graphs compared to DAGs. To perform evidence integration on our graphs, we investigate two recent graph neural networks, namely graph convolutional network (GCN) and graph recurrent network (GRN). Experiments on two standard datasets show that richer global information leads to better answers. Our method performs better than all published results on these datasets.
研究动机与目标
- 通过连接超越局部指代信息的全局证据来激发并提升多跳阅读理解。
- 提出一种更丰富的跨段落实体提及的图构建,使用三种边类型。
- 应用图神经网络(GRN/GCN)对图进行编码并整合证据以进行答案选择。
提出的方法
- 通过跨段落的实体提及和代词构建图,使用三种边类型:same-entity、coreference,以及基于窗口的边。
- 用 Graph Recurrent Network (GRN) 或 Graph Convolutional Network (GCN) 对图进行编码以传播信息。
- 用神经编码表示每个实体提及和问题,然后执行加性注意力在图状态上对候选答案进行打分。
- 对每个候选项聚合每个提及的分数并归一化以获得最终概率。
- 使用 Adam 优化器,以交叉熵损失端到端训练。
- 与包括 Local BiLSTM 以及 Coref-LSTM/DAG-LSTM 变体在内的基线进行比较,并对边类型进行消融实验。
实验结果
研究问题
- RQ1通过多种边类型丰富全局证据是否能提升对文本段落的多跳推理?
- RQ2GRN 和 GCN 在对更丰富的图结构进行 MHRC 编码方面有何比较?
- RQ3每种边类型(same、coreference、window)对总体性能的贡献是什么?
- RQ4在标准 MHRC 数据集上,基于图的证据整合框架能否超越基于 DAG 的指代方法?
主要发现
| 模型 | 开发集 | 测试集 |
|---|---|---|
| GA w/ GRU | 54.9 | – |
| GA w/ Coref-GRU | 56.0 | 59.3 |
| Local | 61.0 | – |
| Coref LSTM | 61.4 | – |
| Coref GRN | 61.4 | – |
| MHQA-GCN | 62.6 | – |
| MHQA-GRN | 62.8 | 65.4 |
- MHQA-GRN 在 WikiHop 测试集上达到 65.4% 的准确率,是提交时公开发表的最佳结果。
- MHQA-GRN 始终优于 MHQA-GCN,且两者在 WikiHop 和 ComplexWebQuestions 上都优于基线。
- 消融实验显示三种边类型都对性能有贡献,窗口边的影响不及同一实体/指代关系,但仍然有益。
- 在 WikiHop 开发集上,T=3 的 GRN 取得最佳结果;更多步数可能引入噪声并降低性能。
- 在 ComplexWebQuestions 上,MHQA-GRN 相对于 Local 有所提升,并且超过不需要额外标注的 SplitQA 方法(开发集数字:MHQA-GRN 33.2 vs Local 31.2)。
- MHQA-GRN 通过跨越多段落和相关实体整合证据,显示出显著的提升,表明基于图的全局上下文的价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。