[论文解读] Reading Wikipedia to Answer Open-Domain Questions
DrQA 将对 Wikipedia 的快速文档检索器与神经文档阅读器相结合,使用 Wikipedia 作为唯一知识源进行开放域问答,在多个 QA 基准上取得强劲结果,并展示多任务学习与远距离监督训练的好处。
This paper proposes to tackle open- domain question answering using Wikipedia as the unique knowledge source: the answer to any factoid question is a text span in a Wikipedia article. This task of machine reading at scale combines the challenges of document retrieval (finding the relevant articles) with that of machine comprehension of text (identifying the answer spans from those articles). Our approach combines a search component based on bigram hashing and TF-IDF matching with a multi-layer recurrent neural network model trained to detect answers in Wikipedia paragraphs. Our experiments on multiple existing QA datasets indicate that (1) both modules are highly competitive with respect to existing counterparts and (2) multitask learning using distant supervision on their combination is an effective complete system on this challenging task.
研究动机与目标
- 推动将 Wikipedia 作为唯一知识源的开放域问答并识别检索相关文献与阅读以获取跨度答案的挑战。
- 开发一个两组件系统(文档检索器和文档阅读器)以应对大规模的检索和机器理解。
- 在多个 QA 数据集上评估系统以评估迁移性以及远监督与多任务学习的效用。
提出的方法
- 文档检索器:使用基于二元组哈希和 TF-IDF 评分的高效检索模块,返回少量相关的 Wikipedia 文章。
- 文档阅读器:一个多层双向 LSTM 神经网络,对段落和问题进行编码,使用包括词嵌入、精确匹配信号、POS/NER/TF,以及对齐的问题嵌入等特征,预测答案的起止跨度。
- 训练:以 SQuAD 作为主要训练数据;通过将段落与非 SQuAD 的 QA 对相关联来生成远监督数据;通过将 DS 数据与 SQuAD 结合来探索多任务学习。
- 预测:通过对起始和结束位置进行双线性项打分并在段落内选择跨度(最多 15 个标记)来在检索文档中选取最佳答案跨度。
- 评估:在 SQuAD 上分别评估各组件,然后在开放域问答任务中评估完整的 DrQA 系统,覆盖 SQuAD 开发集、CuratedTREC、WebQuestions 和 WikiMovies。
实验结果
研究问题
- RQ1Wikipedia 是否能够单独支撑一个模块化的开放域事实问答系统,通过检索和读取文本来提取答案跨度?
- RQ2检索质量与段落级机器理解如何相互作用,影响在不同数据集上的整体 QA 性能?
- RQ3远监督的多任务训练是否在开放域 QA 中提升效果,相较于单数据集训练?
- RQ4在开放域 QA 中,从只阅读单个正确段落(机器阅读)到阅读 Wikipedia 的多个段落/文档之间存在怎样的差距?
主要发现
- 基于大/二元组哈希的文档检索器在定位包含答案的文章方面优于内置的 Wikipedia 搜索 API。
- 文档阅读器作为单模型在 SQuAD 上取得强劲结果,测试集达到 70.0% Exact Match 和 79.0% F1,超越若干已发表系统。
- 在多任务远监督训练下,DrQA 的完整开放域问答系统在 SQuAD、CuratedTREC、WebQuestions 与 WikiMovies 上均具有竞争力,在许多情况下优于单任务训练。
- 远监督与多任务训练相较于仅在 SQuAD 上训练,带来显著增益,表明同一知识源中的额外领域相关数据有益。
- 在预测开放域答案时,与段落阅读相比,系统的性能会下降,因为 SQuAD 的问题往往针对特定段落定制,凸显端到端开放域问答的挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。