Skip to main content
QUICK REVIEW

[论文解读] DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Wei He, Kai Liu|arXiv (Cornell University)|Nov 14, 2017
Topic Modeling参考文献 19被引用 51
一句话总结

DuReader 引入一个基于百度搜索日志和百度知道的大规模真实场景中文问答数据集,涵盖多样的问题类型,并提供基线结果,显示与人类表现的差距。

ABSTRACT

This paper introduces DuReader, a new large-scale, open-domain Chinese ma- chine reading comprehension (MRC) dataset, designed to address real-world MRC. DuReader has three advantages over previous MRC datasets: (1) data sources: questions and documents are based on Baidu Search and Baidu Zhidao; answers are manually generated. (2) question types: it provides rich annotations for more question types, especially yes-no and opinion questions, that leaves more opportunity for the research community. (3) scale: it contains 200K questions, 420K answers and 1M documents; it is the largest Chinese MRC dataset so far. Experiments show that human performance is well above current state-of-the-art baseline systems, leaving plenty of room for the community to make improvements. To help the community make these improvements, both DuReader and baseline systems have been posted online. We also organize a shared competition to encourage the exploration of more models. Since the release of the task, there are significant improvements over the baselines.

研究动机与目标

  • 通过使用来自百度搜索和百度知道的问题和文档来应对真实世界的MRC挑战。
  • 提供丰富的问题类型注释,包括是非和观点问题。
  • 扩展到200k个问题、1M份文档,以及超过420k个答案,以反映实际MRC情景。

提出的方法

  • 通过一个分类辅助抽样流程从搜索日志中收集问题。
  • 从百度搜索和百度知道整合文档,并保留完整文档以进行段落级推理。
  • 用六种类型(实体、描述、是非)和两个方面(事实、观点)对问题进行注释。
  • 通过汇总并编写相关文档中的支持句来进行众包答案。
  • 使用基线MRC模型(Match-LSTM、BiDAF)进行评估,并采用两步段落选择和答案跨度程序。
  • 提出一种面向观点的是非问题评估,以使生成的答案与观点标签对齐。

实验结果

研究问题

  • RQ1在来自搜索日志和CQA平台的真实中文数据上,MRC 的表现如何?
  • RQ2模型是否能够处理六种问题类型(实体、描述、是非)在Fact/Opinion分类中的表现?
  • RQ3使用全文档与单个段落对MRC表现的影响如何?
  • RQ4在长篇多文档输入上,当前基于跨度的MRC模型的有效性如何?
  • RQ5在为是非问题加入观点感知评估时,会带来哪些改进?

主要发现

  • DuReader 包含 200k 问题、1M 文档,以及超过 420k 个人工总结的答案,使其成为当时最大的中文MRC数据集。
  • 带段落选择的基线模型(Match-LSTM、BiDAF)在段落基线之上有所提升,但仍落后于人类表现。
  • Gold-paragraph 评估显著提升模型性能,突显有效段落选择的重要性。
  • 是非与观点问题对模型来说比描述问题更难,且模型在百度搜索与百度知道来源上的表现存在差异。
  • 一种面向观点的评估方案通过将答案与明确的观点标签(Yes/No/Depends)配对来改进评估。
  • human 表现仍明显高于当前模型,表明在方法学上仍有较大提升空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。