Skip to main content
QUICK REVIEW

[论文解读] Exposure and Emergence in Usage-Based Grammar: Computational Experiments in 35 Languages

Jonathan Dunn|arXiv (Cornell University)|Nov 2, 2022
Language and cultural evolution被引用 1
一句话总结

本文提出了一种基于使用经验的建构语法计算模型,模拟了语言输入暴露如何驱动35种语言中建构的涌现与去巩固。通过逐步增加特定语域语料的暴露量,研究发现:构式库的增长速度慢于词汇库,不同语域的语法在暴露增加后趋于收敛,遗忘率与涌现率相互对应,支持一种动态的、由暴露驱动的语法结构形成与衰减模型。

ABSTRACT

<p> <i>[article abstract:] </i> This paper uses computational experiments to explore the role of exposure in the emergence of construction grammars. While usage-based grammars are hypothesized to depend on a learner’s exposure to actual language use, the mechanisms of such exposure have only been studied in a few constructions in isolation. This paper experiments with (i) the growth rate of the constructicon, (ii) the convergence rate of grammars exposed to independent registers, and (iii) the rate at which constructions are forgotten when they have not been recently observed. These experiments show that the lexicon grows more quickly than the grammar and that the growth rate of the grammar is not dependent on the growth rate of the lexicon. At the same time, register-specific grammars converge onto more similar constructions as the amount of exposure increases. This means that the influence of specific registers becomes less important as exposure increases. Finally, the rate at which constructions are forgotten when they have not been recently observed mirrors the growth rate of the constructicon. This paper thus presents a computational model of usage-based grammar that includes both the emergence and the unentrenchment of constructions.</p> <p> <i> [dataset abstract:] </i> This dataset consists of three zip folders containing the main analysis represented in the related publication as well as a number of separate corpus files that serve as the raw input to grammar learning. </p>

研究动机与目标

  • 探究实际语言使用暴露如何驱动基于使用的语法中构式的涌现。
  • 考察不同语言和语域中词汇库增长与构式库增长之间的关系。
  • 建模随着暴露增加,特定语域语法如何趋于收敛。
  • 模拟当构式未在近期被观察到时的去巩固过程,将遗忘与涌现联系起来。

提出的方法

  • 本研究将计算建构语法(CxG)应用于35种语言中三个不同语域的可比语料库。
  • 暴露量以每10万词为增量,从10万词逐步增加到200万词,以模拟语言暴露的发展阶段。
  • 通过追踪每个暴露水平下获得的独特构式数量,测量构式库的增长。
  • 通过跨语言和跨语域比较,评估不同语域语法在每个暴露水平下构式库的相似性,以衡量语法收敛程度。
  • 通过未在近期暴露窗口中被观察到的构式的激活衰减来建模去巩固,模拟随时间推移的遗忘过程。
  • 所有实验均基于感知驱动、语料驱动的模型进行,不依赖心理语言学或具身数据,仅关注语料中分布模式。

实验结果

研究问题

  • RQ1在不同语言和语域中,构式库的增长速率与词汇库的增长速率相比如何?
  • RQ2随着暴露量的增加,特定语域的语法在多大程度上趋于收敛为相似的表征?
  • RQ3在逐步暴露下,构式去巩固(遗忘)的速率如何与涌现速率相关?
  • RQ4构式库的增长是否依赖于词汇库的增长,还是两者遵循独立的发展轨迹?
  • RQ5核心构式(高频构式)是否比边缘构式在不同语域中表现出更高的收敛性?

主要发现

  • 构式库的增长速度慢于词汇库,表明即使在不同语言和语域中,语法结构的涌现速度也慢于单个词汇的出现速度。
  • 词汇库增长与构式库增长之间无显著关系,表明构式库并非词汇库的简单延伸,而是通过抽象化与泛化过程发展而来。
  • 随着暴露量的增加,特定语域的语法趋于收敛为更相似的表征,其中暴露量达200万词的语法比暴露量为100万或50万词的语法更相似。
  • 核心构式库(由高频构式定义)在不同语域间的一致性高于完整构式库,表明不同语境间存在共享的语法基础。
  • 当构式未被近期观察到时,其遗忘速率与涌现速率相互对应,表明在基于使用的语法中,学习与遗忘之间存在对称动态。
  • 不同语域语法的收敛是由在更高暴露量下习得的更抽象、更泛化的构式所驱动,这解释了为何构式库的增长速度慢于词汇库。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。