QUICK REVIEW

[论文解读] A BERT Baseline for the Natural Questions

Chris Alberti, Kenton Lee|arXiv (Cornell University)|Jan 24, 2019

Topic Modeling参考文献 9被引用 97

一句话总结

基于 BERT 的单模型基线，用于 Natural Questions，联合预测短答案和长答案，使用滑动窗口和对空实例的下采样以提升相较于以往基线的 F1 分数。

ABSTRACT

This technical note describes a new baseline for the Natural Questions. Our model is based on BERT and reduces the gap between the model F1 scores reported in the original dataset paper and the human upper bound by 30% and 50% relative for the long and short answer tasks respectively. This baseline has been submitted to the official NQ leaderboard at ai.google.com/research/NaturalQuestions. Code, preprocessed data and pretrained model are available at https://github.com/google-research/language/tree/master/language/question_answering/bert_joint.

研究动机与目标

将 Natural Questions 作为更困难的问答基准进行动机阐述，并建立一个强有力的基于 BERT 的基线。
开发一个单模型，在 NQ 中联合预测短答案和长答案。
通过数据预处理和采样策略提高训练效率和效果。
展示相较于之前的 NQ 基线的显著改进，并接近人类水平的性能边界。

提出的方法

从在 SQuAD 1.1 上微调的 BERT 模型初始化。
通过在文档上以 stride 128 滑动一个 512-token 的窗口来创建训练实例。
将空值（无答案）实例下采样 50 倍，以平衡训练数据。
引入原子标记 token [Paragraph=N]、[Table=N]、[List=N]，以向模型指示文档结构。
在单一模型中联合预测起始、结束和答案类型（short/long/yes/no/no-answer）。
按分数 g(c,s,e) = f_start(s,c) + f_end(e,c) - f_start([CLS],c) - f_end([CLS],c) 对区间进行排序。
将预测限制为单一短答案，并依赖评测脚本处理长答案/无答案的调整。

实验结果

研究问题

RQ1一个单一的 BERT 模型是否能够在 Natural Questions 上有效地联合预测短答案和长答案？
RQ2相较于以往的基线，窗口化、空值下采样和结构化标记是否提升了 NQ 的问答性能？
RQ3在 NQ 任务（短/长/是/否/无答案）上，以联合的 start/end/type 目标进行训练的影响是什么？

主要发现

BERT 联合模型显著优于先前的 NQ 基线，将与人类上限的差距缩小：长答案缩小 30%，短答案缩小 50%。
训练使用非空和下采样空实例的平衡混合，即使存在大量空实例也能实现有效学习。
该模型在开发集/测试集上相较于如 DocumentQA、DecAtt + DocReader，以及先前的 NQ 基线等基线获得了显著的 F1 提升。
该方法在长答案和短答案任务上仍留有显著的提升空间（超过 20 个 F1 点），表明还有进一步改进的空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。