[论文解读] Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
本文介绍 ON-LSTM,一种循环单元,通过基于 cumax 的结构化门偏置神经元以在不同时间尺度编码信息,从而实现隐式树状组合,并在语言建模、解析和推理任务上取得改进。
Natural language is hierarchically structured: smaller units (e.g., phrases) are nested within larger units (e.g., clauses). When a larger constituent ends, all of the smaller constituents that are nested within it must also be closed. While the standard LSTM architecture allows different neurons to track information at different time scales, it does not have an explicit bias towards modeling a hierarchy of constituents. This paper proposes to add such an inductive bias by ordering the neurons; a vector of master input and forget gates ensures that when a given neuron is updated, all the neurons that follow it in the ordering are also updated. Our novel recurrent architecture, ordered neurons LSTM (ON-LSTM), achieves good performance on four different tasks: language modeling, unsupervised parsing, targeted syntactic evaluation, and logical inference.
研究动机与目标
- 在语言中推动分层的、树状结构,并解决标准 LSTM 在捕捉长距离依赖方面的局限性。
- 通过有序神经元和基于 cumax 的门控,开发区分神经元时间尺度的归纳偏置。
- 构建偏向更新以反映成分式层级的 ON-LSTM 单元。
- 在语言建模、无监督解析、定向句法评估和逻辑推理任务上评估 ON-LSTM。
- 证明所诱导的潜在结构与语言成分对齐并提升泛化能力。
提出的方法
- 引入 cumax() 激活(累积 softmax),以产生单调门向量,从而在神经元之间诱导排序。
- 通过 cumax 定义主忘记门和输入门,对整块神经元进行门控,从而实现分层更新动态。
- 推导将主门与标准 LSTM 门结合以产生 c_t 和 h_t 更新的更新规则(方程(11)-(14))。
- 通过将神经元分组为块来缩减主门的参数数量。
- 在语言建模上训练三层 ON-LSTM,并评估其在解析、句法评估和逻辑推理方面的性能。
实验结果
研究问题
- RQ1通过按更新频率对神经元排序的归纳偏置,是否能在 RNN 中产生潜在的树状成分结构?
- RQ2相对于具有类似容量的标准 LSTM,ON-LSTM 是否能提升语言建模的困惑度?
- RQ3ON-LSTM 是否能诱导与人类标注一致的无监督成分解析?
- RQ4分层更新对定向句法评估和逻辑推理任务是否有帮助?
- RQ5ON-LSTM 如何对更长的序列和长程依赖进行泛化?
主要发现
- ON-LSTM 在 Penn Treebank 语言建模的困惑度上优于具有相似容量的标准 LSTM。
- ON-LSTM 的第二层在 WSJ 测试数据上实现了最先进的无监督成分解析。
- ON-LSTM 在定向句法评估和逻辑推理任务的长程依赖测试中表现更好,尤其是在较长序列上。
- 该模型比先前的结构感知方法对更长序列具有更强的泛化能力。
- ON-LSTM 推断的潜在树与语言学上合理的成分(如 ADJP、NP 和 PP)相对应,表明与人类句法的对齐。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。