[论文解读] Dual Multi-head Co-attention for Multi-choice Reading Comprehension.
本文提出双注意力多头协同注意力(DUMA),一种简单而有效的基于注意力的机制,用于建模多选阅读理解任务中段落、问题和答案选项之间的交互。通过直接在所有三个组件之间应用多头协同注意力,DUMA增强了预训练语言模型,在DREAM和RACE基准上取得了最先进性能,且无需复杂的匹配网络。
Multi-choice Machine Reading Comprehension (MRC) requires model to decide the correct answer from a set of answer options when given a passage and a question. Thus in addition to a powerful pre-trained Language Model as encoder, multi-choice MRC especially relies on a matching network design which is supposed to effectively capture the relationship among the triplet of passage, question and answers. While the latest pre-trained Language Models have shown powerful enough even without the support from a matching network, and the latest matching network has been complicated enough, we thus propose a novel going-back-to-the-basic solution which straightforwardly models the MRC relationship as attention mechanism inside network. The proposed DUal Multi-head Co-Attention (DUMA) has been shown simple but effective and is capable of generally promoting pre-trained Language Models. Our proposed method is evaluated on two benchmark multi-choice MRC tasks, DREAM and RACE, showing that in terms of strong Language Models, DUMA may still boost the model to reach new state-of-the-art performance.
研究动机与目标
- 解决多选阅读理解中段落、问题和答案选项之间有效交互建模的需求。
- 通过回归到更简单的基于注意力的方法,克服复杂匹配网络的局限性。
- 通过轻量级但强大的注意力机制,提升强预训练语言模型的性能。
- 证明简单注意力机制在多选机器阅读理解中可超越更复杂的架构。
- 在不增加架构复杂度的前提下,实现在标准多选MRC基准上的最先进结果。
提出的方法
- 提出一种双多头协同注意力机制,联合建模段落与问题之间的注意力,以及段落与答案选项之间的注意力。
- 在三个输入模态(段落、问题、答案)内部应用多头自注意力,以丰富其表示。
- 通过段落与问题之间的交叉注意力,以及段落与每个答案选项之间的交叉注意力,捕捉模态间的关联。
- 聚合来自协同注意力层的表示,为每个答案选项生成统一的上下文感知表示。
- 将DUMA模块集成到预训练语言模型主干(如BERT)中,实现端到端训练。
- 使用标准MRC目标,通过答案选项上的交叉熵损失进行模型训练。
实验结果
研究问题
- RQ1简化后的基于注意力的机制是否能在多选阅读理解中超越复杂的匹配网络?
- RQ2双多头协同注意力机制在多大程度上能提升强预训练语言模型的性能?
- RQ3在段落、问题和答案选项之间建模协同注意力,是否能带来比单独建模更好的对齐与推理效果?
- RQ4轻量级注意力机制是否能在不增加架构复杂度的前提下实现最先进性能?
- RQ5DUMA方法在DREAM和RACE等不同多选MRC数据集上的泛化能力如何?
主要发现
- DUMA在DREAM多选阅读理解基准上实现了最先进性能。
- 该模型在RACE数据集上也提升了性能,表明其在不同MRC任务中具有强大的泛化能力。
- 所提出的方法在不需架构大改的前提下,持续提升了强预训练语言模型的性能。
- DUMA优于依赖复杂匹配网络的先前方法,证明了简单注意力机制的有效性。
- 消融实验确认,双协同注意力设计相比单注意力基线,显著提升了性能。
- 即使在强预训练模型上,该方法依然有效,表明DUMA捕捉到了主干网络本身无法学习到的关键推理模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。