[论文解读] Same Neurons, Different Languages: Probing Morphosyntax in Multilingual Pre-trained Models
本文研究了多语言预训练模型是否在跨语言的共享神经元子集中编码了诸如性、格和时态等题干句法信息。通过在43种语言上使用最先进的潜在变量神经元探测器,研究发现题干句法类别在跨语言间存在显著的神经元重叠,尤其是在语言关系较近的语言以及预训练数据量较大的情况下,表明模型通过共享的神经表征学习到了普遍的语法抽象。
The success of multilingual pre-trained models is underpinned by their ability to learn representations shared by multiple languages even in absence of any explicit supervision. However, it remains unclear how these models learn to generalise across languages. In this work, we conjecture that multilingual pre-trained models can derive language-universal abstractions about grammar. In particular, we investigate whether morphosyntactic information is encoded in the same subset of neurons in different languages. We conduct the first large-scale empirical study over 43 languages and 14 morphosyntactic categories with a state-of-the-art neuron-level probe. Our findings show that the cross-lingual overlap between neurons is significant, but its extent may vary across categories and depends on language proximity and pre-training data size.
研究动机与目标
- 探究多语言预训练模型是否在不同语言间通过相同的神经元子集编码题干句法特征,从而揭示零样本跨语言迁移的机制。
- 检验模型是否通过为等效题干句法功能对齐神经元,即使在缺乏词汇重叠的情况下,也能学习到语言通用的语法抽象。
- 考察语言类型学相似性、预训练数据规模和模型架构等因素对神经元重叠的影响。
- 为多语言表征中跨语言神经纠缠的程度与结构提供实证证据。
- 探讨神经元重叠对零样本迁移性能和模型可解释性的影响。
提出的方法
- 本研究采用 Sta{\'c}czak 等人(2022)提出的潜在变量探测方法,识别每种语言中每个题干句法类别最具有信息量的 k 个神经元子集。
- 探测器使用变分下界来近似对所有神经元子集的不可行边缘化,通过泊松采样方案对变分分布进行高效优化。
- 神经元子集基于后验最大化选择:C* = argmax_C log pθ(C | D),由于组合爆炸问题,采用贪心搜索。
- 该方法应用于 m-BERT、XLM-R-base 和 XLM-R-large 模型,对来自 Universal Dependencies 2.1 的 43 种语言进行探测,其题干句法特征由 UniMorph 标注。
- 跨语言神经元重叠通过语言对之间 top-k 神经元集合的 Jaccard 相似度进行度量,并通过 Holm–Bonferroni 校正评估统计显著性。
- 对神经元重叠与以下因素进行相关性分析:(a) 每类的取值数量,(b) 语言类型学相似性(Littell 等,2017),以及 (c) 预训练数据规模(XLM-R 使用 CC-100,m-BERT 使用 Wikipedia)。
实验结果
研究问题
- RQ1多语言预训练模型是否在不同语言间通过重叠的神经元子集编码相同的题干句法特征(如性或时态)?
- RQ2神经元重叠程度在不同题干句法类别之间如何变化,特别是那些具有大量取值的类别?
- RQ3语言亲缘关系(如同属一个语系)和预训练数据规模在多大程度上影响神经元重叠?
- RQ4模型规模(如 XLM-R-base 与 XLM-R-large)是否影响跨语言神经元纠缠的程度?
- RQ5在语言之间,神经元重叠与类型学相似性或预训练数据量之间是否存在统计相关性?
主要发现
- 在 43 种语言中,对 14 个题干句法类别观察到显著的跨语言神经元重叠,XLM-R-base 中最重叠的语言对平均重叠率达 44%,XLM-R-large 达 41%。
- 神经元重叠在取值较少的类别中最高,如“有生性”(XLM-R-base 中平均重叠 64%),并随取值数量增加而下降,表明表达能力与跨语言对齐之间存在权衡。
- 同属一个语系或具有相似类型学特征的语言之间神经元重叠显著更高,XLM-R-base 中 65% 的重叠神经元对位于同一语系内。
- 预训练数据规模与神经元重叠呈强相关(Spearman’s ρ = 0.59,XLM-R-base),表明更大的预训练数据可产生更纠缠、更可复用的表征。
- 更大的模型架构(如 XLM-R-large)的神经元重叠程度低于较小模型(如 XLM-R-base),表明容量增加可能降低跨语言压缩与纠缠程度。
- 神经元重叠与类型学相似性之间存在正向且显著的相关性(平均 ρ = 0.31),尤其在“有生性”和“性”等类型学上受限于特定语系的类别中更为明显。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。