QUICK REVIEW

[论文解读] Comparing Transformers and RNNs on predicting human sentence processing data.

Danny Merkx, Stefan L. Frank|arXiv (Cornell University)|May 19, 2020

Neurobiology of Language and Bilingualism参考文献 35被引用 26

一句话总结

本研究通过训练两种架构预测实验刺激中的意外性（surprisal），比较了Transformer与RNN作为人类句子处理认知模型的性能。Transformer在解释自定进度阅读时间与N400振幅方面优于RNN，但对眼动持续时间的预测表现无显著差异，表明其在建模某些阅读努力指标方面更具优势。

ABSTRACT

Recurrent neural networks (RNNs) have long been an architecture of interest for computational models of human sentence processing. The more recently introduced Transformer architecture has been shown to outperform recurrent neural networks on many natural language processing tasks but little is known about their ability to model human language processing. It has long been thought that human sentence reading involves something akin to recurrence and so RNNs may still have an advantage over the Transformer as a cognitive model. In this paper we train both Transformer and RNN based language models and compare their performance as a model of human sentence processing. We use the trained language models to compute surprisal values for the stimuli used in several reading experiments and use mixed linear modelling to measure how well the surprisal explains measures of human reading effort. Our analysis shows that the Transformers outperform the RNNs as cognitive models in explaining self-paced reading times and N400 strength but not gaze durations from an eye-tracking experiment.

研究动机与目标

评估尽管采用非循环设计，Transformer是否能比传统RNN更好地建模人类句子处理。
探究基于Transformer与RNN的神经语言模型在多大程度上能利用心理语言学指标预测人类阅读努力。
比较两种架构生成的意外性在多种阅读测量指标（自定进度阅读时间、N400强度与眼动持续时间）上的解释力。
确定在注意力机制模型取得成功的情况下，处理过程中的循环性是否仍是建模人类语言理解所必需的。

提出的方法

在共享语料上训练Transformer与基于RNN的语言模型，以确保学习条件一致。
利用两种模型的概率估计，计算实验刺激中每个词的意外性值。
应用混合线性模型，评估意外性对人类阅读指标（自定进度阅读时间、N400振幅与眼动持续时间）的预测能力。
使用已发表阅读实验中的标准化心理语言学刺激，以确保生态效度。
采用统计建模方法，比较Transformer与RNN在不同阅读指标上对意外性预测的拟合优度。
聚焦于模型在解释人类处理努力方差方面的表现，特别关注认知合理性。

实验结果

研究问题

RQ1Transformer在解释以自定进度阅读时间衡量的人类句子处理努力方面是否优于RNN？
RQ2基于Transformer的意外性是否比基于RNN的意外性能更准确预测N400振幅？
RQ3Transformer与RNN在预测阅读过程中眼动持续时间方面是否存在显著差异？
RQ4Transformer所采用的非循环注意力机制是否仍与人类句子处理的认知理论相一致？
RQ5架构选择（循环 vs. 自注意力）在多大程度上影响神经语言模型在心理语言学语境下的解释力？

主要发现

Transformer在解释自定进度阅读时间方面显著优于RNN，表明其对阅读努力具有更强的预测能力。
基于Transformer的意外性比基于RNN的意外性能解释更多N400振幅的方差。
两种模型在预测眼动持续时间方面均无明显优势，表明眼动持续时间可能受超出意外性范畴的因素影响。
研究结果挑战了循环性是建模人类句子处理所必需的传统假设，因为尽管缺乏循环结构，Transformer在关键阅读指标上的表现更优。
模型间的表现差距在与认知负荷和预测误差相关的测量指标（如阅读时间与N400反应）上最为显著。
研究结果支持将基于注意力的架构（如Transformer）作为认知建模中语言理解的可行且可能更优的替代方案，以替代RNN。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。