[论文解读] The emergence of number and syntax units in LSTM language models
该论文在单神经元层面分析 LSTM 语言模型,识别出两个专用的长程数字单元和一个语法单元,显示 LSTMs 学习对主谓一致具有结构敏感的机制,超越表层启发式。
Recent work has shown that LSTMs trained on a generic language modeling objective capture syntax-sensitive generalizations such as long-distance number agreement. We have however no mechanistic understanding of how they accomplish this remarkable feat. Some have conjectured it depends on heuristics that do not truly take hierarchical structure into account. We present here a detailed study of the inner mechanics of number tracking in LSTMs at the single neuron level. We discover that long-distance number information is largely managed by two `number units'. Importantly, the behaviour of these units is partially controlled by other units independently shown to track syntactic structure. We conclude that LSTMs are, to some extent, implementing genuinely syntactic processing mechanisms, paving the way to a more general understanding of grammatical encoding in LSTMs.
研究动机与目标
- 调查 LSTM 语言模型在没有显式语言先验的情况下如何追踪语法数值和长程依赖。
- 确定数值信息是本地存储、稀疏存储,还是跨单位分布存储。
- 识别与语法相关的单位及其与数字单位的相互作用以调节一致性。
- 研究语法与数字单位之间的连通性,以理解结构如何影响特征渗透。
提出的方法
- 使用在维基百科数据上训练的预训练 650-650-650 LSTM 语言模型,未进行数字特化微调。
- 探测长距离数值一致性任务(NA-tasks)和句法深度预测数据集,以评估内部表征。
- 执行单单元消融以测试候选数字单元的必要性。
- 分析门控和单元动态,以表征所提出的数字单元在跨依赖中如何存储和释放数值信息。
- 通过从隐藏状态解码句法深度来识别语法单元,并通过消融测试因果效应。
- 检查语法单元与数字单元之间的传入/传出连接性,以推断对记忆门的控制信号。
实验结果
研究问题
- RQ1LSTM 语言模型是否能够从未标注的语料数据中诱导出对结构敏感的数值一致性?
- RQ2是否存在用于长程依赖的专用数字编码单元,它们如何被控制?
- RQ3是否存在调节跨依赖的数字信息流动的语法相关单元?
- RQ4语法和数字单元如何通过网络连接相互作用以支持语法编码?
主要发现
- 在第二层出现两个专用的长程数字单元,编码单数和复数主语数,并在介入材料之间保持。
- 一个与语法相关的单元编码主谓依赖,并向数字单元发送信号以控制何时记忆或更新数值信息。
- 存在一个分布式、与语法无关的数字编码,便于简单任务,但它不能稳健地跨嵌套结构携带数值信息,突显了 LR-number 单元的重要性。
- 对 LR-number 单元的消融显著降低长程(一致/不一致)NA-tasks 的性能,表明它们在长距离一致性中的关键作用。
- 该语法单元呈现结构化的门控动态,并对数字单位施加强烈的传出影响,有效地提供记忆/更新标志以处理依赖,暗示 LSTM 中真正的句法处理机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。