QUICK REVIEW

[论文解读] What do you learn from context? Probing for sentence structure in contextualized word representations

Ian Tenney, Patrick Xia|arXiv (Cornell University)|May 15, 2019

Topic Modeling被引用 139

一句话总结

本文通过边缘探针分析上下文化词表示（CoVe、ELMo、GPT、BERT）编码的语法和语义信息，方法是从固定上下文嵌入预测语言边缘，揭示比语义信号更强的句法信号，并在像 ELMo 和 BERT 这类深层模型中发现非局部信息的证据。

ABSTRACT

Contextualized representation models such as ELMo (Peters et al., 2018a) and BERT (Devlin et al., 2018) have recently achieved state-of-the-art results on a diverse array of downstream NLP tasks. Building on recent token-level probing work, we introduce a novel edge probing task design and construct a broad suite of sub-sentence tasks derived from the traditional structured NLP pipeline. We probe word-level contextual representations from four recent models and investigate how they encode sentence structure across a range of syntactic, semantic, local, and long-range phenomena. We find that existing models trained on language modeling and translation produce strong representations for syntactic phenomena, but only offer comparably small improvements on semantic tasks over a non-contextual baseline.

研究动机与目标

研究在每个标记位置之外，情境化词嵌入编码了哪些信息，超越词汇先验。
评估四种模型(CoVe、ELMo、GPT、BERT)在句法、语义、局部以及长距离现象编码方面。
将情境化表示与词汇基线进行比较，以分离上下文驱动的增益。

提出的方法

提出一个边缘探针框架，使用固定的上下文嵌入预测标注的边缘，位于标记跨度之间。
开发一个基于跨度的池化机制和一个两层MLP分类器，从跨度表示中预测边标签。
在八个标签任务上评估，来自句法/语义流程（POS、成分、依存、命名实体识别、语义角色标注、共指、SPR、关系分类）。
使用多个数据集（OntoNotes、UD、SPR1/SPR2、SemEval 2010），并与词汇基线以及CNN/正交/随机化变体进行比较，以分离架构和预训练的影响。
用拼接或混合层表示对四个模型（CoVe、ELMo、GPT、BERT）进行探针研究，且不微调编码器。

实验结果

研究问题

RQ1情境化嵌入在句子的每个位置编码了哪些语言信息？
RQ2情境化表示主要是句法还是语义，是局部还是长距离？
RQ3不同的预训练目标和架构（CoVe、ELMo、GPT、BERT）如何影响任务间的边缘预测性能？
RQ4词汇基线和简单架构控制（CNN、随机化）在多大程度上解释观察到的增益？
RQ5更深的模型（如 BERT-large）是否在语义任务如共指和 SPR 上比在句法任务有显著改进？

主要发现

情境化嵌入通常超越词汇基线，最大增益出现在句法任务，如依存和成分标注。
ELMo 和 GPT 的性能通常高于 CoVe，ELMo 在许多任务上通常领先，GPT 在使用混合特征时在关系分类和共指方面表现出色。
对于像 BERT 和 GPT 这样的深层变换器，层表示的标量混合（mix）优于简单拼接（cat），并且 BERT-large 在几个任务上显著超过 ELMo（如 OntoNotes 共指）。
BERT-large 在 OntoNotes 共指上显示出特别大的增益，在其他任务上也有合理改进，表明更深的无监督模型在某种程度上帮助语义理解。
非局部上下文贡献显著：用小的卷积视图扩展词汇基线可在许多句法任务中恢复大部分全模型增益，而语义任务则更依赖长距离信息。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。