QUICK REVIEW

[论文解读] RNNs as psycholinguistic subjects: Syntactic state and grammatical dependency

Richard Futrell, Ethan Wilcox|arXiv (Cornell University)|Sep 5, 2018

Topic Modeling参考文献 46被引用 40

一句话总结

该论文通过实证研究英语与日语的 LSTM 语言模型是否在处理增量句法状态和语法依赖方面具备增量性，采用改编自 RNN 惊喜度测量的受控心理语言学实验。研究发现增量句法状态的证据以及对即将材料的某些维持，但在学习反身绑定和 NPI 许可方面存在局限。

ABSTRACT

Recurrent neural networks (RNNs) are the state of the art in sequence modeling for natural language. However, it remains poorly understood what grammatical characteristics of natural language they implicitly learn and represent as a consequence of optimizing the language modeling objective. Here we deploy the methods of controlled psycholinguistic experimentation to shed light on to what extent RNN behavior reflects incremental syntactic state and grammatical dependency representations known to characterize human linguistic behavior. We broadly test two publicly available long short-term memory (LSTM) English sequence models, and learn and test a new Japanese LSTM. We demonstrate that these models represent and maintain incremental syntactic state, but that they do not always generalize in the same way as humans. Furthermore, none of our models learn the appropriate grammatical dependency configurations licensing reflexive pronouns or negative polarity items.

研究动机与目标

评估 RNN 在处理复杂结构时是否维持增量句法状态。
评估 RNN 对语法依赖的表征，如反身绑定与 NPI 许可。
研究花园路徑效应及必然出现的下一个句法事件，以与人类解析进行比较。
比较英语与日语的 RNN 行为，以理解句法表征的跨语言泛化。

提出的方法

从 RNNs 计算词级 surprisal，即给定前一隐藏状态的下一个词的负对数概率。
设计定向句子刺激，诱发花园路徑效应并在不同条件下测量 surprisal 差异。
预先注册实验并使用按项目与按条件 surprisal 的线性混合效应模型进行分析。
在英语中测试两种 LSTM（JRNN 和 GRNN）以及在日语中测试一类 LSTM（JPRNN），它们都以语言建模目标进行训练。
对 MV/RR 花园路径、主语 Animate 性效应、必然出现的下一个句法事件（ORCs 和从属句）、反身绑定以及 NPIs 进行实验。

实验结果

研究问题

RQ1在花园路径和简化的关系从句环境中，LSTMs 是否如同人类那样维持增量句法状态？
RQ2英语与日语的 LSTMs 是否学习并应用如反身绑定和 NPI 许可等语法依赖？
RQ3LSTMs 如何随着时间处理诸如完成关系从句和从属从句等必然出现的下一个句法事件？
RQ4模型架构与训练数据如何影响人类般句法表征的出现？

主要发现

LSTMs 在关系从句中显示出增量句法状态的证据，并可以使用动词形式线索来指示简化关系从句。
英语模型在 ORCs 和从属句中维持对即将材料的期望，且鲁棒性随介入材料变得更长或更复杂而降低。
JRNN 展示了反身代词性别不匹配效应，与学习某些绑定倾向一致，但 GRNN 显示出较弱或无此类效应。
两种英语模型都未学习到适当的英语或日语中反身绑定或 NPIs 的许可配置，说明在学习语法依赖方面存在差距。
英语 NPIs 显示许可效应，但模型也表现出对相对从句中负许可者的虚假许可，表明对许可约束的抽象不完全。
日语 NPIs（shika）显示部分许可效应，且存在复杂交互，指示对 NPI 许可规则的泛化并不完善。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。