Skip to main content
QUICK REVIEW

[论文解读] Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction

Taeuk Kim, Jihun Choi|arXiv (Cornell University)|Jan 30, 2020
Natural Language Processing Techniques参考文献 43被引用 46
一句话总结

该论文表明,可以从预训练 Transformer 语言模型中通过注意力分布的句法距离进行零-shot 成分树诱导,取得强劲的英语语法诱导基线,并揭示英语句法中的偏见。

ABSTRACT

With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.

研究动机与目标

  • 研究预训练语言模型在不进行训练或任务特定模块的情况下,是否能捕捉到类似成分的句法结构。
  • 利用注意力基句法距离从预训练的 LM 中提取成分树。
  • 将诱导的树作为英语语法诱导在 PTB 与 MNLI 上的基线进行评估。
  • 分析不同 LM 层和注意力头编码短语结构信息。
  • 探索偏见(如右偏)以了解诱导树中的英语句法倾向。

提出的方法

  • 用平均其子词表示来表示每个单词,从而获得每个 LM 层的词级向量。
  • 使用所选距离函数 f 在表示 g(w_i) 和 g(w_{i+1}) 之间计算相邻词的句法距离 d_i。
  • 按照 Shen 等人 (2018a,b) 的方法,仅依据距离向量 d 构建成分树,无需训练或任务特定模块。
  • 使用多种 f(COS、L1、L2、JSD、HEL)和 g(分层表示、注意力分布)选项来比较性能。
  • 可选择地在距离中引入右偏偏置以探索英语成分偏好(λ · AVG(d) · (1 - 线性项))。
  • 在八种 LM 变体(BERT-base/large、GPT-2、RoBERTa-base/large、XLNet-base/large)及其 base/large 配置上进行评估。

实验结果

研究问题

  • RQ1预训练的语言模型在不进行微调或额外组件的情况下,是否能产生在语言学上可信的成分树?
  • RQ2哪些 LM 表示(层、注意力头,或它们的集合)最支持零-shot 成分诱导?
  • RQ3当添加偏置时,基于句法距离的树是否能捕捉英语的右支偏向?
  • RQ4诱导解析与 gold-standard PTB 树以及跨领域的 MNLI 推断树相比如何?
  • RQ5不同的 LM 尤其捕获了哪些句法知识(例如 SBAR、VP、ADJP、ADVP)?

主要发现

  • 预训练的 LM 在无需额外训练的情况下,为英语语法诱导提供了具有竞争力的 S-F1 分数。
  • 在句法距离上应用右偏偏置可将 S-F1 再提升约 10 点,尤以 SBAR 和 VP 为甚。
  • 基于注意力的距离(G^d)通常比隐藏表示(G^v)获得更好的解析结果。
  • 基于 XLNet 的模型在各层通常表现最好,中间层通常对解析最具信息量。
  • ADJP 和 ADVP 类别被某些 LM 特别好地捕获,而 NP 的召回率保持强劲但并非主导。
  • 使用偏置和更大的模型通常有帮助,且注意力分布的层级平均(每层)通常优于单个头。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。