[论文解读] Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction
该论文表明,可以从预训练 Transformer 语言模型中通过注意力分布的句法距离进行零-shot 成分树诱导,取得强劲的英语语法诱导基线,并揭示英语句法中的偏见。
With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.
研究动机与目标
- 研究预训练语言模型在不进行训练或任务特定模块的情况下,是否能捕捉到类似成分的句法结构。
- 利用注意力基句法距离从预训练的 LM 中提取成分树。
- 将诱导的树作为英语语法诱导在 PTB 与 MNLI 上的基线进行评估。
- 分析不同 LM 层和注意力头编码短语结构信息。
- 探索偏见(如右偏)以了解诱导树中的英语句法倾向。
提出的方法
- 用平均其子词表示来表示每个单词,从而获得每个 LM 层的词级向量。
- 使用所选距离函数 f 在表示 g(w_i) 和 g(w_{i+1}) 之间计算相邻词的句法距离 d_i。
- 按照 Shen 等人 (2018a,b) 的方法,仅依据距离向量 d 构建成分树,无需训练或任务特定模块。
- 使用多种 f(COS、L1、L2、JSD、HEL)和 g(分层表示、注意力分布)选项来比较性能。
- 可选择地在距离中引入右偏偏置以探索英语成分偏好(λ · AVG(d) · (1 - 线性项))。
- 在八种 LM 变体(BERT-base/large、GPT-2、RoBERTa-base/large、XLNet-base/large)及其 base/large 配置上进行评估。
实验结果
研究问题
- RQ1预训练的语言模型在不进行微调或额外组件的情况下,是否能产生在语言学上可信的成分树?
- RQ2哪些 LM 表示(层、注意力头,或它们的集合)最支持零-shot 成分诱导?
- RQ3当添加偏置时,基于句法距离的树是否能捕捉英语的右支偏向?
- RQ4诱导解析与 gold-standard PTB 树以及跨领域的 MNLI 推断树相比如何?
- RQ5不同的 LM 尤其捕获了哪些句法知识(例如 SBAR、VP、ADJP、ADVP)?
主要发现
- 预训练的 LM 在无需额外训练的情况下,为英语语法诱导提供了具有竞争力的 S-F1 分数。
- 在句法距离上应用右偏偏置可将 S-F1 再提升约 10 点,尤以 SBAR 和 VP 为甚。
- 基于注意力的距离(G^d)通常比隐藏表示(G^v)获得更好的解析结果。
- 基于 XLNet 的模型在各层通常表现最好,中间层通常对解析最具信息量。
- ADJP 和 ADVP 类别被某些 LM 特别好地捕获,而 NP 的召回率保持强劲但并非主导。
- 使用偏置和更大的模型通常有帮助,且注意力分布的层级平均(每层)通常优于单个头。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。