Skip to main content
QUICK REVIEW

[论文解读] Consensus Attention-based Neural Networks for Chinese Reading Comprehension

Yiming Cui, Ting Liu|arXiv (Cornell University)|Jul 8, 2016
Topic Modeling参考文献 16被引用 43
一句话总结

本文首次发布了公开可用的中文阅读理解数据集——《人民日报》和《儿童童话》——并提出了一种基于共识注意力的新型Sum Reader模型,通过聚合所有查询词的注意力来提升答案预测性能。该模型在多个基准测试中显著优于当前最先进(SOTA)的基线模型,包括自动构建和人工评估的测试集,为中文机器阅读理解设立了新的基准。

ABSTRACT

Reading comprehension has embraced a booming in recent NLP research. Several institutes have released the Cloze-style reading comprehension data, and these have greatly accelerated the research of machine comprehension. In this work, we firstly present Chinese reading comprehension datasets, which consist of People Daily news dataset and Children's Fairy Tale (CFT) dataset. Also, we propose a consensus attention-based neural network architecture to tackle the Cloze-style reading comprehension problem, which aims to induce a consensus attention over every words in the query. Experimental results show that the proposed neural network significantly outperforms the state-of-the-art baselines in several public datasets. Furthermore, we setup a baseline for Chinese reading comprehension task, and hopefully this would speed up the process for future research.

研究动机与目标

  • 通过发布两个新数据集——《人民日报》新闻和《儿童童话》——来解决大规模、高质量中文阅读理解数据集缺乏的问题。
  • 通过提出一种优化的神经网络模型,捕捉完整的查询表征以实现更优的注意力计算,从而提升中文机器阅读理解性能。
  • 利用自动构建和人工评估的测试集,为未来中文阅读理解研究建立一个强有力的基线。
  • 通过引入人工评估的测试集,弥合基于模式的自动问题与真实世界复杂理解任务之间的差距。

提出的方法

  • 提出一种基于共识注意力的Sum Reader模型,该模型基于查询中的所有词语计算文档上的注意力,而非依赖单个查询词。
  • 采用共识注意力机制,聚合所有查询词的贡献,从而实现查询与文档之间更稳健的对齐。
  • 采用受指针网络启发的基于注意力的神经网络架构,直接根据注意力得分从文档中选择答案词。
  • 采用两阶段训练策略:先在大规模自动构建的数据上进行预训练,再在人工评估的测试集上进行微调。
  • 利用词级别注意力计算文档的上下文感知表征,答案预测基于注意力加权最高的标记。
  • 在训练数据中使用匿名化命名实体和重新排列的词元,以减少对词汇模式的依赖,提升泛化能力。

实验结果

研究问题

  • RQ1通过共识注意力机制将所有查询词联合考虑的神经网络模型,是否能在中文完形填空类阅读理解任务中表现优于仅使用单个词注意力的模型?
  • RQ2所提出的模型在自动构建和人工评估的测试集上的表现如何,特别是在处理非模式化、真实世界问题时的表现如何?
  • RQ3与纯合成数据集相比,引入人工评估测试集在多大程度上提升了阅读理解模型的鲁棒性和泛化能力?
  • RQ4共识注意力机制是否能有效减少对自动构建训练数据中词汇模式的过拟合?

主要发现

  • 所提出的基于共识注意力的Sum Reader模型在CNN/Daily Mail和《儿童读本测试集》等多个基准上,显著优于多个最先进基线模型。
  • 该模型在人工评估测试集上表现出更优的泛化能力,该测试集因采用非重复、自然语言形式的问题而更具挑战性。
  • 人工评估测试集的引入揭示了当前模型在处理真实世界、非模式化问题时仍存在困难,表明在推理与理解能力方面仍有改进空间。
  • 共识注意力机制通过聚合所有查询词的信息,有效捕捉了复杂的查询-文档关系,从而实现更准确的答案选择。
  • 该模型通过直接根据注意力得分从文档中预测答案标记,无需加权求和表征,优于现有基于注意力的方法。
  • 《人民日报》和《儿童童话》数据集的发布为中文阅读理解提供了新基准,其中的人工评估测试集更能反映真实世界理解挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。