QUICK REVIEW

[论文解读] Unified Open-Domain Question Answering with Structured and Unstructured Knowledge.

Barlas Oğuz, Xilun Chen|arXiv (Cornell University)|Dec 29, 2020

Topic Modeling被引用 26

一句话总结

本文提出了一种统一的开放域问答框架，将结构化、非结构化和半结构化知识源（例如表格、知识库、文本）转换为统一的文本格式，从而使得原本专为纯文本源设计的强大检索-阅读模型得以应用。通过将所有知识类型通过文本化统一，该方法在三个主要的ODQA基准上实现了最先进性能，即使在组合原本专为单源评估而设计的源时也表现出一致的性能提升。

ABSTRACT

We study open-domain question answering (ODQA) with structured, unstructured and semi-structured knowledge sources, including text, tables, lists, and knowledge bases. Our approach homogenizes all sources by reducing them to text, and applies recent, powerful retriever-reader models which have so far been limited to text sources only. We show that knowledge-base QA can be greatly improved when reformulated in this way. Contrary to previous work, we find that combining sources always helps, even for datasets which target a single source by construction. As a result, our unified model produces state-of-the-art results on 3 popular ODQA benchmarks.

研究动机与目标

解决在单一开放域问答框架中整合多样化知识源（文本、表格、知识库和列表）的挑战。
通过将检索-阅读模型适配以处理异构知识源，克服现有检索-阅读模型通常仅限于非结构化文本的局限性。
探究在原本为单源评估而构建的数据集中，组合多个知识源是否能始终如一地提升问答性能。
通过统一知识表示并利用先进的神经阅读模型，在现有开放域问答基准上实现最先进结果。

提出的方法

所有知识源——包括结构化（如表格、知识库）、非结构化（如文本）和半结构化（如列表）——通过一致的文本化过程转换为统一的文本格式。
统一的文本表示使得最先进检索-阅读模型能够被统一应用于所有知识类型。
检索通过统一的文本语料库进行，使用密集向量表示，从而无论原始源格式如何，都能有效检索相关段落。
阅读模型在从统一知识库衍生的问答对上进行微调，以直接从检索到的段落生成答案。
该框架支持使用标准神经QA架构进行端到端训练和推理，且无需针对每类源进行架构修改。
通过将所有文本化知识源连接成单一检索语料库，实现异构数据间的联合检索与阅读。

实验结果

研究问题

RQ1能否通过标准检索-阅读模型，将结构化和半结构化知识源与非结构化文本有效统一，用于开放域问答？
RQ2即使基准是为单源评估而构建，组合多个知识源是否能始终如一地提升问答性能？
RQ3通过将结构化知识重新表述为文本并应用仅处理文本的神经模型，知识库问答性能能提升到何种程度？
RQ4在包括具有强源特定设计约束的基准在内的多样化ODQA基准上，源组合带来的性能增益是否具有鲁棒性？

主要发现

统一的文本化方法在三个主要开放域问答基准（包括MS-MARCO、Natural Questions和TriviaQA）上实现了最先进性能。
即使在原本明确为评估单源模型而构建的数据集中，组合结构化、非结构化和半结构化源也能持续提升性能。
当结构化知识被重新表述为文本并经由神经检索-阅读模型处理时，知识库问答性能得到显著提升。
所提出的方法优于以往将不同类型知识分别处理的模型，证明了统一表示的优势。
源组合带来的收益不仅限于特定数据类型；在文本、表格和知识库中均观察到性能提升。
该框架在无需针对每类源进行架构修改的情况下实现优异结果，凸显了文本化作为统一策略的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。