Skip to main content
QUICK REVIEW

[论文解读] What do you learn from context? Probing for sentence structure in contextualized word representations

Ian Tenney, Patrick Xia|arXiv (Cornell University)|May 15, 2019
Topic Modeling被引用 362
一句话总结

本文提出边缘探测任务,用以分析上下文化词嵌入对句子结构编码了哪些信息,显示出强烈的句法编码,但在超出词汇基线的语义收益方面相对有限,BERT 提供了显著的改进。

ABSTRACT

Contextualized representation models such as ELMo (Peters et al., 2018a) and BERT (Devlin et al., 2018) have recently achieved state-of-the-art results on a diverse array of downstream NLP tasks. Building on recent token-level probing work, we introduce a novel edge probing task design and construct a broad suite of sub-sentence tasks derived from the traditional structured NLP pipeline. We probe word-level contextual representations from four recent models and investigate how they encode sentence structure across a range of syntactic, semantic, local, and long-range phenomena. We find that existing models trained on language modeling and translation produce strong representations for syntactic phenomena, but only offer comparably small improvements on semantic tasks over a non-contextual baseline.

研究动机与目标

  • 推动对上下文化的词表示进行探测,以理解在每个标记位置编码了哪些语言信息。
  • 引入边缘探测作为一个统一框架,使用固定上下文嵌入来评估句法和语义结构。
  • 在广泛的子句任务上评估四大上下文模型(CoVe、ELMo、GPT、BERT)。
  • 将上下文化表示与词汇基线进行比较,以隔离上下文信息的贡献。

提出的方法

  • 定义一个边缘探测任务设计,将每个NLP标注任务表示为在标记区间或区间对上预测二元标签。
  • 使用固定、预训练的编码器生成上下文向量,并通过区间池化 + MLP 分类器来预测任务标签。
  • 探测模型仅访问给定区间内的嵌入,确保分析反映编码器可获得的信息。
  • 考察八个标注任务(POS、成分、依存、命名实体、SRL、共指、SPR、关系分类),这些任务来自 OntoNotes 和 UD 语料库。
  • 将四个编码器(CoVe、ELMo、GPT、BERT)与词汇基线和扩展基线(在词汇特征之上添加的 CNN、随机的 ELMo)进行比较,以评估架构与预训练的影响。

实验结果

研究问题

  • RQ1上下文化嵌入在每个标记位置编码了关于句子结构的哪些信息?
  • RQ2上下文表示在多大程度上捕捉到了句法与语义现象?
  • RQ3观察到的收益有多少来自架构而非预训练和长距离依赖?
  • RQ4上下文模型是主要依赖局部上下文,还是编码了长距离依赖?
  • RQ5不同模型(CoVe、ELMo、GPT、BERT)在多样的子句任务上有何比较?

主要发现

  • 上下文化嵌入在句法任务(如依存关系和成分)上通常比在语义任务上对词汇基线有更明显的提升。
  • ELMo 与 GPT 显著优于 CoVe;BERT 进一步提升,特别是在共指任务上收益更大,BERT-large 在若干任务上显著降低错误率。
  • 对层激活的标量混合(mix)通常比简单拼接获得更好结果,尤其是对于像 BERT 和 GPT 这样深度的 Transformer 模型。
  • 在语义任务上提升存在但较小;语义原型角色与 Winograd 风格的共指显示改进有限,尽管关系分类从上下文编码中获益显著。
  • 基于 CNN 的局部上下文扩展解释了句法任务大部分收益,而某些语义任务则受益于由完整编码器提供的真正长距离信息。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。