QUICK REVIEW

[论文解读] Semantics-aware BERT for Language Understanding

Zhuosheng Zhang, Yuwei Wu|arXiv (Cornell University)|Sep 5, 2019

Topic Modeling参考文献 31被引用 25

一句话总结

本文提出 SemBERT，一种语义感知的 BERT 模型，通过在 BERT 框架中显式整合结构化的语义角色标注（SRL）信号，增强语言表征。通过采用轻量级、可微调的架构，将 SRL 标注的谓词-论元结构与 BERT 的上下文嵌入相融合，SemBERT 在 11 个 NLU 基准测试中达到最先进性能，包括在 SNLI 上取得新的 SOTA 结果，并在 GLUE 和 SQuAD 2.0 上实现显著提升。

ABSTRACT

The latest work on language representations carefully integrates contextualized features into language model training, which enables a series of success especially in various machine reading comprehension and natural language inference tasks. However, the existing language representation models including ELMo, GPT and BERT only exploit plain context-sensitive features such as character or word embeddings. They rarely consider incorporating structured semantic information which can provide rich semantics for language representation. To promote natural language understanding, we propose to incorporate explicit contextual semantics from pre-trained semantic role labeling, and introduce an improved language representation model, Semantics-aware BERT (SemBERT), which is capable of explicitly absorbing contextual semantics over a BERT backbone. SemBERT keeps the convenient usability of its BERT precursor in a light fine-tuning way without substantial task-specific modifications. Compared with BERT, semantics-aware BERT is as simple in concept but more powerful. It obtains new state-of-the-art or substantially improves results on ten reading comprehension and language inference tasks.

研究动机与目标

为解决现有预训练语言模型在捕捉丰富、显式的上下文语义方面存在的局限性，超越单纯的词和字符嵌入。
探究将结构化语义信息（特别是来自预训练语义角色标注）整合到深度上下文表征中，是否能提升自然语言理解的性能。
开发一种简单而有效的方法，在无需任务特定架构修改的前提下增强 BERT，同时保持其可用性。
证明显式语义信息可显著提升下游 NLU 任务（如问答和自然语言蕴涵）的性能。

提出的方法

使用现成的预训练语义角色标注器，为输入句子标注谓词-论元结构。
并行处理原始文本和 SRL 标签，通过 BERT 主干网络生成两种模态的上下文嵌入。
采用语义融合组件，将 BERT 的隐藏状态与基于 SRL 的语义嵌入拼接，形成联合表征。
应用轻量级、端到端的微调策略，使模型适应下游任务，而无需重大架构修改。
利用基于跨度的 SRL 标注，引导更优的跨度分割，提升跨度抽取任务的预测准确率。
将 SRL 视为一种结构化的外部知识，为 BERT 的表征注入显式语义角色（例如，谁对谁做了什么）。

实验结果

研究问题

RQ1从语义角色标注中提取的显式上下文语义是否能提升预训练语言模型在自然语言理解任务中的性能？
RQ2结构化语义信号的整合如何影响模型在问答任务中捕捉语义完整答案的能力？
RQ3在真实场景中，当 SRL 预测存在噪声或不完美时，模型的鲁棒性如何？
RQ4添加语义感知组件是否能使预测更具可解释性且语义上更一致，相较于标准 BERT？

主要发现

SemBERT 在 SNLI 自然语言蕴涵基准测试中达到新的 SOTA 性能，优于先前方法。
在 GLUE 基准测试中，SemBERT 显著优于 BERT，展示了在多样化 NLU 任务中的广泛提升。
在 SQuAD 2.0 上，SemBERT 达到 87.02 的 F1 和 83.69 的 EM，消融实验表明 SRL 整合可生成更语义完整的答案。
该模型对噪声 SRL 预测保持鲁棒性，即使 40% 的标签被随机破坏，仍保持强劲性能（F1: 87.24）。
消融实验证实，显式整合语义至关重要，缺乏该机制的模型性能显著下降。
BERT 隐藏状态与 SRL 嵌入的拼接带来一致性能提升，表明普通表征与语义表征的有效融合。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。