Skip to main content
QUICK REVIEW

[论文解读] QuAC : Question Answering in Context

Eunsol Choi, He He|arXiv (Cornell University)|Aug 21, 2018
Topic Modeling参考文献 22被引用 53
一句话总结

QUAC 引入了一个大规模的信息需求对话问答数据集,其中学生就隐藏的维基百科某一部分提出问题,教师给出文本片段作为回答,揭示开放式和不可回答的情形,并在需要对话上下文以实现准确回答。

ABSTRACT

We present QuAC, a dataset for Question Answering in Context that contains 14K information-seeking QA dialogs (100K questions in total). The dialogs involve two crowd workers: (1) a student who poses a sequence of freeform questions to learn as much as possible about a hidden Wikipedia text, and (2) a teacher who answers the questions by providing short excerpts from the text. QuAC introduces challenges not found in existing machine comprehension datasets: its questions are often more open-ended, unanswerable, or only meaningful within the dialog context, as we show in a detailed qualitative evaluation. We also report results for a number of reference models, including a recently state-of-the-art reading comprehension architecture extended to model dialog context. Our best model underperforms humans by 20 F1, suggesting that there is significant room for future work on this data. Dataset, baseline, and leaderboard available at http://quac.ai.

研究动机与目标

  • 解决信息检索型对话中问题依赖于上下文,且仅凭该节内容可能无法回答的问题。
  • 创建一个大规模数据集(14K 对话,10万问题),包含师生互动和信息获取的访问不对称。
  • 研究对话上下文如何影响问答性能,并提供能够融入上下文的强基线方法。

提出的方法

  • 围绕一个维基百科节的众包师生对话(学生只看到标题和第一段;教师看到完整节),答案为该节文本中的片段(最多 30 个标记)。
  • 教师输出一个答案片段以及对话行为(续问、确认、可回答性)以引导对话。
  • 数据集收集使用 Mechanical Turk,设有质量控制与逐轮奖励;对话在回答了12个问题后或达到提前停止条件时结束。
  • 评估将片段预测视为类似 SQuAD 的 F1,并处理不可回答情况,同时增加一个与人类表现等效的分数(HEQ)。
  • 基线模型包括文本相似度、适配于对话上下文的 BiDAF++ 风格阅读理解模型,以及对前文轮次进行条件化的上下文增强变体。

实验结果

研究问题

  • RQ1对话上下文如何影响信息检索问答中的可回答性和片段定位?
  • RQ2有多少问题是具有上下文相关性或非事实性,且不可回答的问题如何影响建模?
  • RQ3将最先进的阅读理解模型扩展到对话上下文,是否能够在 QUAC 上接近人类表现?
  • RQ4人类可以达到的上限表现是多少,当前模型与之相差多少?

主要发现

  • QUAC 包含 14K 对话(10万问题),其中有大量开放式、具有上下文相关性且不可回答的问题。
  • 一个强有力的上下文感知基线(带对话上下文的 BiDAF++)相较于忽略上下文的模型有所提升,但在完整任务上仍落后约 20 个 F1 点于人类表现。
  • 引入上下文(最多 2-3 个前文轮次)带来显著提升;更多上下文收益递减。
  • 许多问题具有上下文性(86%),相当大的一部分依赖对话历史(44% 参考对话历史;61% 参考文章主题)。
  • 平均回答长度比标准的 SQuAD 风格任务更长(约 15 个标记),反映开放式回答。
  • 人类在 F1 上的上限为 80.8,而最佳模型约为 60 F1,且约 60% HEQ-D,表明仍有大量提升空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。