[论文解读] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
StructBERT 在 BERT 的基础上增加了词语结构和句子结构的预训练目标,在 GLUE、SNLI 和 SQuAD 基准上提升了性能。
Recently, the pre-trained language model, BERT (and its robustly optimized version RoBERTa), has attracted a lot of attention in natural language understanding (NLU), and achieved state-of-the-art accuracy in various NLU tasks, such as sentiment classification, natural language inference, semantic textual similarity and question answering. Inspired by the linearization exploration work of Elman [8], we extend BERT to a new model, StructBERT, by incorporating language structures into pre-training. Specifically, we pre-train StructBERT with two auxiliary tasks to make the most of the sequential order of words and sentences, which leverage language structures at the word and sentence levels, respectively. As a result, the new model is adapted to different levels of language understanding required by downstream tasks. The StructBERT with structural pre-training gives surprisingly good empirical results on a variety of downstream tasks, including pushing the state-of-the-art on the GLUE benchmark to 89.0 (outperforming all published models), the F1 score on SQuAD v1.1 question answering to 93.0, the accuracy on SNLI to 91.7.
研究动机与目标
- 动机:在预训练期间利用潜在的语言结构以获得更深层次的语言理解。
- 将 BERT 的预训练扩展为两个结构性目标,以捕捉词序和句间关系。
- 证明结构化预训练能在多种自然语言理解任务上带来更好的泛化能力。
提出的方法
- 基于 BERT Transformer 框架并添加两个新的辅助预训练任务:一个词语结构目标和一个句子结构目标。
- 词语结构目标:在遮蔽了 15% 的标记后,在未遮蔽的标记中打乱 3-gram 序列(trigrams),并训练模型预测原始位置。
- 句子结构目标:在一个成对句子中随机化句子顺序,并训练模型预测第二句是下一句、上一句还是随机的,以双向建模句间结构。
- 将这些目标与原始的 masked LM 目标合并到单一的预训练损失中。
- 使用 WordPiece 分词、512 的序列长度,以及与 BERT 类输入表示和 Transformer 编码器相同的标准设置。
- 在 English Wikipedia 和 BookCorpus 上进行大规模分布式训练的预训练,随后进行针对特定任务的微调。
实验结果
研究问题
- RQ1在预训练阶段显式的词序和句间结构信号是否能提升下游 NLU 性能超过 BERT?
- RQ2词语结构和句子结构目标在单句任务与句子对任务上的改进各自贡献到何种程度?
- RQ3StructBERT 的变体在 GLUE、SNLI 和 SQuAD 基准上与当代模型相比如何?
主要发现
- StructBERTLarge 集成在 GLUE 平均分上达到领先水平(当时的最先进),平均分为 89.0。
- StructBERT 在 SNLI(单模型)上取得 91.7% 的准确率,超过了此前的模型。
- StructBERT 在 SQuAD v1.1 上达到 93.0 的 F1 分数,超越了许多基线且无需额外数据增强。
- 消融实验表明,词语结构目标和句子结构目标在各任务中均有益处;移除任一目标都会降低性能,尤其是对 CoLA 的词结构目标和对 MNLI/SQuAD 的句子结构目标。
- 词语结构目标尤其提升单句任务(如 CoLA),而句子结构目标提升句子对任务(MNLI、SNLI、QQP、SQuAD)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。