QUICK REVIEW

[论文解读] Technical report on Conversational Question Answering

Ying Ju, Fubang Zhao|arXiv (Cornell University)|Sep 24, 2019

Topic Modeling参考文献 20被引用 42

一句话总结

我们提出了一个基于 RoBERTa 的系统，结合推理标注、对抗训练、知识蒸馏和后处理用于对话式问答，在 CoQA 测试上实现 90.4 的 F1，并达到单模型的最先进性能。

ABSTRACT

Conversational Question Answering is a challenging task since it requires understanding of conversational history. In this project, we propose a new system RoBERTa + AT +KD, which involves rationale tagging multi-task, adversarial training, knowledge distillation and a linguistic post-process strategy. Our single model achieves 90.4(F1) on the CoQA test set without data augmentation, outperforming the current state-of-the-art single model by 2.6% F1.

研究动机与目标

通过利用答案中的推理信息，推动对话式问答的微调改进。
引入多任务推理标注来引导提取。
结合对抗与虚拟对抗训练以提升鲁棒性。
应用知识蒸馏，将来自多位教师模型的更丰富信号传递给学生模型。
在 CoQA 上评估以确立最先进结果并分析可提取模型的潜力。

提出的方法

用于 CoQA 的基线 RoBERTa 设置，输入包含历史上下文的串联。
多任务推理标注，预测包含于推理中的标记，并将其整合到 Yes/No/Unk 决策中。
对抗训练（AT），通过扰动单词嵌入；为无监督扰动的虚拟对抗训练（VAT）。
知识蒸馏（KD），利用多位教师模型提供软目标给学生模型。
通过基于词语相似度的后处理方法处理非抽取性/替代表达的答案，并通过 GA 指导模型选择进行集成。
使用平均 logits 的多模型集成，在尺寸约束下通过遗传算法进行优化。

实验结果

研究问题

RQ1推理标注与对抗/知识蒸馏训练在不进行数据增强的情况下，是否能提升对话式问答的性能？
RQ2考虑自由文本答案，CoQA 上可提取模型的实际上限是多少？
RQ3相比单模型，后处理与集成对 CoQA 性能有何影响？

主要发现

单模型在 CoQA 测试上达到 90.4 的 F1（同类模型中的最先进水平）。
消融研究显示：基线 89.5 F1；+ 推理标注 90.0；+ 对抗训练 90.7；+ 知识蒸馏 91.0；+ 后处理 91.3。
最佳单模型设置在开发集通过后处理达到 91.3 F1；在测试集的集成进一步提升到 90.7 F1（在受限集成下，开发集 91.8）。
通过 GA 集成 9 个模型在 CoQA 测试上达到 91.5 F1，优于简单平均（91.2）。
上限分析表明若使用第一个人类参考，F1 为 93.0，若使用全部四个人类参考，F1 为 95.1，指示可提取头部的潜在上限为 4.9%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。