Skip to main content
QUICK REVIEW

[论文解读] Is Graph Structure Necessary for Multi-hop Reasoning?

Nan Shao, Yiming Cui|arXiv (Cornell University)|Apr 7, 2020
Topic Modeling参考文献 6被引用 7
一句话总结

本文研究了图结构在自然语言处理多跳推理任务中是否真正必要,以HotpotQA为基准。结果表明,Transformer中的自注意力机制可替代图注意力机制,在无需显式图结构的情况下实现最先进性能,从而挑战了此类任务中图建模的必要性。

ABSTRACT

Recently, many works attempt to model texts as graph structure and introduce graph neural networks to deal with it on many NLP this http URL this paper, we investigate whether graph structure is necessary for multi-hop reasoning tasks and what role it plays. Our analysis is centered on HotpotQA. We use the state-of-the-art published model, Dynamically Fused Graph Network (DFGN), as our baseline. By directly modifying the pre-trained model, our baseline model gains a large improvement and significantly surpass both published and unpublished works. Ablation experiments established that, with the proper use of pre-trained models, graph structure may not be necessary for multi-hop reasoning. We point out that both the graph structure and the adjacency matrix are task-related prior knowledge, and graph-attention can be considered as a special case of self-attention. Experiments demonstrate that graph-attention or the entire graph structure can be replaced by self-attention or Transformers, and achieve similar results to the previous state-of-the-art model achieved.

研究动机与目标

  • 确定图结构是否对于在多跳阅读理解任务中实现优异性能至关重要。
  • 评估图结构和邻接矩阵作为任务特定先验知识在多跳推理中的作用。
  • 比较图注意力机制与Transformer中标准自注意力机制在推理任务中的有效性。
  • 评估预训练模型是否可在无需显式图结构的情况下实现最先进结果。

提出的方法

  • 采用最先进动态融合图网络(DFGN)作为基线,在HotpotQA上微调预训练模型。
  • 将图注意力组件替换为Transformer中的标准自注意力机制,以消除对显式图结构的依赖。
  • 通过消融实验隔离图结构与注意力机制在推理性能中的贡献。
  • 将邻接矩阵视为任务特定先验知识,分析其在建模证据句子间关系中的作用。
  • 在所有实验中使用相同的预训练模型主干网络,以确保基于图与非基于图方法之间的公平比较。
  • 在HotpotQA的开发集上评估性能,以比较有图结构与无图结构变体的结果。

实验结果

研究问题

  • RQ1图结构本身是否对于在多跳推理任务中实现高性能是必要的?
  • RQ2与标准自注意力相比,图注意力机制在性能提升中的贡献程度如何?
  • RQ3Transformer中的自注意力能否有效建模与图注意力相同的关联归纳偏置?
  • RQ4预训练模型的使用在多大程度上降低了对显式图结构的需求?

主要发现

  • 使用DFGN架构和预训练模型的基线模型在HotpotQA上实现了最先进性能,优于已发表及未发表的先前工作。
  • 消融实验表明,当使用自注意力替代图结构时,移除图结构并不会导致性能下降。
  • 图注意力被发现是自注意力的一种特例,表明图的归纳偏置可嵌入注意力机制中。
  • 在Transformer中完全用自注意力替代图结构,可实现与先前最先进模型相当的性能。
  • 邻接矩阵和图结构被识别为任务特定先验知识,而非必要结构组件。
  • 结果表明,图建模的主要优势可能源于注意力机制,而非显式的图拓扑结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。