QUICK REVIEW

[论文解读] Neural Language Modeling by Jointly Learning Syntax and Lexicon

Yikang Shen, Zhouhan Lin|arXiv (Cornell University)|Nov 2, 2017

Topic Modeling参考文献 50被引用 22

一句话总结

本文提出解析-阅读-预测网络（PRPN），一种可微分的神经语言模型，能够从无标注文本中联合学习句法结构与词表示。通过实现从语言建模损失到神经解析网络的端到端反向传播，PRPN在词级别和字符级别的语言建模任务上均达到最先进性能，并展现出强大的无监督成分解析性能，表明其学习到的句法结构与人工标注的句法树高度一致。

ABSTRACT

We propose a neural language model capable of unsupervised syntactic structure induction. The model leverages the structure information to form better semantic representations and better language modeling. Standard recurrent neural networks are limited by their structure and fail to efficiently use syntactic information. On the other hand, tree-structured recursive networks usually require additional structural supervision at the cost of human expert annotation. In this paper, We propose a novel neural language model, called the Parsing-Reading-Predict Networks (PRPN), that can simultaneously induce the syntactic structure from unannotated sentences and leverage the inferred structure to learn a better language model. In our model, the gradient can be directly back-propagated from the language model loss into the neural parsing network. Experiments show that the proposed model can discover the underlying syntactic structure and achieve state-of-the-art performance on word/character-level language model tasks.

研究动机与目标

开发一种神经语言模型，能够在不依赖人工标注语料库的情况下，从未标注文本中自动推导句法结构。
通过将无监督句法结构整合到表征学习过程中，提升语言建模性能。
实现从语言建模目标到神经解析组件的梯度反向传播，从而实现句法结构推导与语言建模的联合优化。
评估所推导的句法结构是否具有语义意义，并与人工标注的句法解析结果具有可比性。

提出的方法

模型采用基于卷积网络的可微分神经解析网络，计算相邻词对之间的句法距离，从而实现软成分决策。
阅读网络通过关注句法相关的先前词元，计算自适应记忆表征，利用句法感知注意力机制控制跳跃连接。
预测网络基于所有句法相关先前表征生成下一个词元，采用相同的句法感知注意力机制。
整个架构通过反向传播实现端到端训练，梯度从语言建模损失流向解析网络，实现联合优化。
解析网络通过基于学习到的句法距离递归组合词元，生成二叉树，注意力门控控制表征的组合过程。
模型在词级别与字符级别的语言建模，以及无监督成分解析任务上进行评估，使用PTB与WSJ10等标准基准数据集。

实验结果

研究问题

RQ1神经语言模型是否能够在不依赖人工标注语料库的情况下，联合推导句法结构并提升语言建模性能？
RQ2将可微分的无监督句法结构引入循环网络的表征学习过程，能在多大程度上改善表征学习？
RQ3PRPN所推导的句法结构与人工标注的成分解析树在多大程度上一致？
RQ4通过神经解析模块实现端到端反向传播，是否能带来优于标准RNN或有监督解析方法的语言建模性能提升？

主要发现

PRPN在词级别语言建模任务上达到最先进或接近最先进性能，在Text8数据集上的测试困惑度为81.64。
在字符级别语言建模任务中，PRPN的测试困惑度为109.7，优于以往无监督模型，接近有监督模型的性能。
在WSJ10数据集的无监督成分解析任务中，PRPN的无标签F1得分为70.02，显著优于随机基线，且与强无监督模型（如CCM）相当。
消融实验表明，移除解析网络会导致性能显著下降，为句法结构有助于提升语言建模提供了实证支持。
对所推导解析树的可视化显示，模型学习到了连贯且类似人类的句法结构，表明其内部表征具有语义意义。
通过在预测头引入连续缓存指针，模型性能进一步提升，表明该架构可与高级优化技术兼容。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。