QUICK REVIEW

[论文解读] Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction

Taeuk Kim, Jihun Choi|arXiv (Cornell University)|Jan 30, 2020

Natural Language Processing Techniques参考文献 43被引用 46

一句话总结

该论文表明，可以从预训练 Transformer 语言模型中通过注意力分布的句法距离进行零-shot 成分树诱导，取得强劲的英语语法诱导基线，并揭示英语句法中的偏见。

ABSTRACT

With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.

研究动机与目标

研究预训练语言模型在不进行训练或任务特定模块的情况下，是否能捕捉到类似成分的句法结构。
利用注意力基句法距离从预训练的 LM 中提取成分树。
将诱导的树作为英语语法诱导在 PTB 与 MNLI 上的基线进行评估。
分析不同 LM 层和注意力头编码短语结构信息。
探索偏见（如右偏）以了解诱导树中的英语句法倾向。

提出的方法

用平均其子词表示来表示每个单词，从而获得每个 LM 层的词级向量。
使用所选距离函数 f 在表示 g(w_i) 和 g(w_{i+1}) 之间计算相邻词的句法距离 d_i。
按照 Shen 等人 (2018a,b) 的方法，仅依据距离向量 d 构建成分树，无需训练或任务特定模块。
使用多种 f（COS、L1、L2、JSD、HEL）和 g（分层表示、注意力分布）选项来比较性能。
可选择地在距离中引入右偏偏置以探索英语成分偏好（λ · AVG(d) · (1 - 线性项)）。
在八种 LM 变体（BERT-base/large、GPT-2、RoBERTa-base/large、XLNet-base/large）及其 base/large 配置上进行评估。

实验结果

研究问题

RQ1预训练的语言模型在不进行微调或额外组件的情况下，是否能产生在语言学上可信的成分树？
RQ2哪些 LM 表示（层、注意力头，或它们的集合）最支持零-shot 成分诱导？
RQ3当添加偏置时，基于句法距离的树是否能捕捉英语的右支偏向？
RQ4诱导解析与 gold-standard PTB 树以及跨领域的 MNLI 推断树相比如何？
RQ5不同的 LM 尤其捕获了哪些句法知识（例如 SBAR、VP、ADJP、ADVP）？

主要发现

预训练的 LM 在无需额外训练的情况下，为英语语法诱导提供了具有竞争力的 S-F1 分数。
在句法距离上应用右偏偏置可将 S-F1 再提升约 10 点，尤以 SBAR 和 VP 为甚。
基于注意力的距离（G^d）通常比隐藏表示（G^v）获得更好的解析结果。
基于 XLNet 的模型在各层通常表现最好，中间层通常对解析最具信息量。
ADJP 和 ADVP 类别被某些 LM 特别好地捕获，而 NP 的召回率保持强劲但并非主导。
使用偏置和更大的模型通常有帮助，且注意力分布的层级平均（每层）通常优于单个头。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。