QUICK REVIEW
[论文解读] Technical report on Conversational Question Answering
Ying Ju, Fubang Zhao|arXiv (Cornell University)|Sep 24, 2019
Topic Modeling参考文献 20被引用 42
一句话总结
我们提出了一个基于 RoBERTa 的系统,结合推理标注、对抗训练、知识蒸馏和后处理用于对话式问答,在 CoQA 测试上实现 90.4 的 F1,并达到单模型的最先进性能。
ABSTRACT
Conversational Question Answering is a challenging task since it requires understanding of conversational history. In this project, we propose a new system RoBERTa + AT +KD, which involves rationale tagging multi-task, adversarial training, knowledge distillation and a linguistic post-process strategy. Our single model achieves 90.4(F1) on the CoQA test set without data augmentation, outperforming the current state-of-the-art single model by 2.6% F1.
研究动机与目标
- 通过利用答案中的推理信息,推动对话式问答的微调改进。
- 引入多任务推理标注来引导提取。
- 结合对抗与虚拟对抗训练以提升鲁棒性。
- 应用知识蒸馏,将来自多位教师模型的更丰富信号传递给学生模型。
- 在 CoQA 上评估以确立最先进结果并分析可提取模型的潜力。
提出的方法
- 用于 CoQA 的基线 RoBERTa 设置,输入包含历史上下文的串联。
- 多任务推理标注,预测包含于推理中的标记,并将其整合到 Yes/No/Unk 决策中。
- 对抗训练(AT),通过扰动单词嵌入;为无监督扰动的虚拟对抗训练(VAT)。
- 知识蒸馏(KD),利用多位教师模型提供软目标给学生模型。
- 通过基于词语相似度的后处理方法处理非抽取性/替代表达的答案,并通过 GA 指导模型选择进行集成。
- 使用平均 logits 的多模型集成,在尺寸约束下通过遗传算法进行优化。
实验结果
研究问题
- RQ1推理标注与对抗/知识蒸馏训练在不进行数据增强的情况下,是否能提升对话式问答的性能?
- RQ2考虑自由文本答案,CoQA 上可提取模型的实际上限是多少?
- RQ3相比单模型,后处理与集成对 CoQA 性能有何影响?
主要发现
- 单模型在 CoQA 测试上达到 90.4 的 F1(同类模型中的最先进水平)。
- 消融研究显示:基线 89.5 F1;+ 推理标注 90.0;+ 对抗训练 90.7;+ 知识蒸馏 91.0;+ 后处理 91.3。
- 最佳单模型设置在开发集通过后处理达到 91.3 F1;在测试集的集成进一步提升到 90.7 F1(在受限集成下,开发集 91.8)。
- 通过 GA 集成 9 个模型在 CoQA 测试上达到 91.5 F1,优于简单平均(91.2)。
- 上限分析表明若使用第一个人类参考,F1 为 93.0,若使用全部四个人类参考,F1 为 95.1,指示可提取头部的潜在上限为 4.9%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。