QUICK REVIEW

[论文解读] Recurrent babbling: evaluating the acquisition of grammar from limited input data

Ludovica Pannitto, Aurélie Herbelot|arXiv (Cornell University)|Oct 9, 2020

Natural Language Processing Techniques参考文献 79被引用 14

一句话总结

本文评估了在 CHILDES 语料库中来自儿童导向话语的 300 万词真实子集上训练的字符级 LSTM 的语法习得情况。通过一种新颖的基于使用的评估方法，该方法追踪随时间推移生成的‘咿呀学语’中的分布变化，作者证明该网络逐步抽象并再现了语法结构，包括非词汇化的句法模式，表明其在有限输入下涌现出的生产力和组合泛化能力。

ABSTRACT

Recurrent Neural Networks (RNNs) have been shown to capture various aspects of syntax from raw linguistic input. In most previous experiments, however, learning happens over unrealistic corpora, which do not reflect the type and amount of data a child would be exposed to. This paper remedies this state of affairs by training a Long Short-Term Memory network (LSTM) over a realistically sized subset of child-directed input. The behaviour of the network is analysed over time using a novel methodology which consists in quantifying the level of grammatical abstraction in the model's generated output (its "babbling"), compared to the language it has been exposed to. We show that the LSTM indeed abstracts new structuresas learning proceeds.

研究动机与目标

探究 RNN 是否能从有限的、类似儿童的输入数据中学习抽象语法结构，从而挑战传统生成语法的假设。
开发一种评估神经网络语法抽象能力的方法，无需依赖下游任务或外部标注。
检验神经网络能否通过基于使用、建构主义的视角模拟人类语言习得中的语法生产力，模糊词库与句法之间的界限。
评估模型生成语言的分布模式在训练过程中的演变，使用输入空间与输出空间中连带（catenae）之间的余弦相似度。

提出的方法

在 CHILDES 的 300 万词子集上训练一个基础的字符级 LSTM，专注于儿童导向的英语数据。
在多个训练周期生成文本样本（‘咿呀学语’）以追踪语言的演化。
使用依存句法分析从输入和生成输出中提取连带（syntactic constituents）。
计算输入（CHILDES）与模型生成（咿呀学语）中连带之间的余弦相似度，以量化分布变化。
对三组进行 Dunn 事后检验：余弦相似度随时间变化的负向、中间和正向变化组。
使用分布语义学将形式-意义对建模为建构，将所有项目——词汇性、部分性或句法性——视为构式库中等价的单位。

实验结果

研究问题

RQ1在有限的儿童导向输入上训练的字符级 LSTM，其在训练过程中多大程度上能抽象并再现语法结构？
RQ2输入与模型生成语言之间的分布相似性如何演变，这揭示了句法抽象的哪些信息？
RQ3即使缺乏显式的归纳偏置，神经网络能否模拟人类语言习得中观察到的语法生产力和组合性？
RQ4不同类型输入数据（如 OpenSubtitles 与 Simple Wikipedia）如何影响模型学习和泛化语法模式的能力？

主要发现

随着训练进行，LSTM 模型生成的‘咿呀学语’与输入 CHILDES 数据之间的分布相似性显著提高，高变化连带的平均余弦相似度变化为 0.18。
连带如 'you VERB you' 和 'we can VERB' 的余弦相似度从第 5 个周期到第 35 个周期分别提升了 0.49 至 0.74，表明其与输入模式的对齐程度不断提高。
该模型成功再现了非词汇化的句法模式，如 'AUX hungry @cop @conj'，在第 35 个周期的余弦相似度达到 0.68，表明其抽象能力已超越机械记忆。
OpenSubtitles 数据与 CHILDES 的相似性高于 Simple Wikipedia，表明其作为研究类儿童语法习得的基准更具适用性。
Dunn 事后检验确认，相似度变化在负向组和正向组中均具有统计显著性（p < 0.05），分别为 6.83e-06 和 4.15e-29，验证了观察趋势的稳健性。
该模型对未词汇化结构（如 'what @advmod VERB'）的泛化能力表明其具备涌现的生产力，支持了 RNN 中存在组合泛化的假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。