Skip to main content
QUICK REVIEW

[论文解读] Technical report on Conversational Question Answering

Ying Ju, Fubang Zhao|arXiv (Cornell University)|Sep 24, 2019
Topic Modeling参考文献 20被引用 42
一句话总结

我们提出了一个基于 RoBERTa 的系统,结合推理标注、对抗训练、知识蒸馏和后处理用于对话式问答,在 CoQA 测试上实现 90.4 的 F1,并达到单模型的最先进性能。

ABSTRACT

Conversational Question Answering is a challenging task since it requires understanding of conversational history. In this project, we propose a new system RoBERTa + AT +KD, which involves rationale tagging multi-task, adversarial training, knowledge distillation and a linguistic post-process strategy. Our single model achieves 90.4(F1) on the CoQA test set without data augmentation, outperforming the current state-of-the-art single model by 2.6% F1.

研究动机与目标

  • 通过利用答案中的推理信息,推动对话式问答的微调改进。
  • 引入多任务推理标注来引导提取。
  • 结合对抗与虚拟对抗训练以提升鲁棒性。
  • 应用知识蒸馏,将来自多位教师模型的更丰富信号传递给学生模型。
  • 在 CoQA 上评估以确立最先进结果并分析可提取模型的潜力。

提出的方法

  • 用于 CoQA 的基线 RoBERTa 设置,输入包含历史上下文的串联。
  • 多任务推理标注,预测包含于推理中的标记,并将其整合到 Yes/No/Unk 决策中。
  • 对抗训练(AT),通过扰动单词嵌入;为无监督扰动的虚拟对抗训练(VAT)。
  • 知识蒸馏(KD),利用多位教师模型提供软目标给学生模型。
  • 通过基于词语相似度的后处理方法处理非抽取性/替代表达的答案,并通过 GA 指导模型选择进行集成。
  • 使用平均 logits 的多模型集成,在尺寸约束下通过遗传算法进行优化。

实验结果

研究问题

  • RQ1推理标注与对抗/知识蒸馏训练在不进行数据增强的情况下,是否能提升对话式问答的性能?
  • RQ2考虑自由文本答案,CoQA 上可提取模型的实际上限是多少?
  • RQ3相比单模型,后处理与集成对 CoQA 性能有何影响?

主要发现

  • 单模型在 CoQA 测试上达到 90.4 的 F1(同类模型中的最先进水平)。
  • 消融研究显示:基线 89.5 F1;+ 推理标注 90.0;+ 对抗训练 90.7;+ 知识蒸馏 91.0;+ 后处理 91.3。
  • 最佳单模型设置在开发集通过后处理达到 91.3 F1;在测试集的集成进一步提升到 90.7 F1(在受限集成下,开发集 91.8)。
  • 通过 GA 集成 9 个模型在 CoQA 测试上达到 91.5 F1,优于简单平均(91.2)。
  • 上限分析表明若使用第一个人类参考,F1 为 93.0,若使用全部四个人类参考,F1 为 95.1,指示可提取头部的潜在上限为 4.9%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。