Skip to main content
QUICK REVIEW

[论文解读] The Greedy and Recursive Search for Morphological Productivity

Caleb Belth, Sarah R. Payne|arXiv (Cornell University)|May 12, 2021
Language Development and Disorders参考文献 37被引用 38
一句话总结

本文介绍 ATP,一种贪婪的、递归的 abductive 模型,通过 Tolerance Principle 来发现高产性(productive)形态规则,在小型词汇上评估产出性,并在英语和德语中与人类发育模式相匹配。它在关键任务上超越神经基线,并在有限训练输入下使 Wug-test 产出与人类数据保持一致。

ABSTRACT

As children acquire the knowledge of their language's morphology, they invariably discover the productive processes that can generalize to new words. Morphological learning is made challenging by the fact that even fully productive rules have exceptions, as in the well-known case of English past tense verbs, which features the -ed rule against the irregular verbs. The Tolerance Principle is a recent proposal that provides a precise threshold of exceptions that a productive rule can withstand. Its empirical application so far, however, requires the researcher to fully specify rules defined over a set of words. We propose a greedy search model that automatically hypothesizes rules and evaluates their productivity over a vocabulary. When the search for broader productivity fails, the model recursively subdivides the vocabulary and continues the search for productivity over narrower rules. Trained on psychologically realistic data from child-directed input, our model displays developmental patterns observed in child morphology acquisition, including the notoriously complex case of German noun pluralization. It also produces responses to nonce words that, despite receiving only a fraction of the training data, are more similar to those of human subjects than current neural network models' responses are.

研究动机与目标

  • 展示一种计算方法,能够从有限的面向儿童的数据中自动假设生产性形态规则。
  • 表明递归细分在广泛规则失效时能发现更窄的生产性规则。
  • 将ATP的发育轨迹和准确性与人类数据以及神经网络基线在英语和德语形态上的表现进行比较。
  • 在现实的训练条件下评估 ATP 的 Wug 测试产出与人类表现的对比。

提出的方法

  • 提出 Abduction of Tolerable Productivity (ATP),一种递归的 abductive 搜索,构建一个决策树,将词干和特征映射到屈折形式。
  • 在每次分裂时,选择通过在子集内最大化最常见的后缀来最大化一致性的特征。
  • 迭代添加基于词干-结尾的特征,使生产性结尾通过 Tolerance Principle。
  • 基线:当最频繁的后缀通过 TP 或无特征剩余时停止;记住例外。
  • 屈折产出遍历学习到的树,在没有生产性规则时使用最近邻记忆。
  • 代码和数据:ATP 实现及使用说明在线可用。

实验结果

研究问题

  • RQ1是否可以使用基于 Tolerance Principle 的贪婪递归搜索从有限数据中自动假设生产性形态规则?
  • RQ2将词汇细分为更窄的组是否有助于在复杂形态(如德语复数)中发现生产性规则?
  • RQ3在以儿童导向语音训练的情况下,ATP 学得的生产性规则和 Wug-test 产出与人类数据以及神经网络基线的对齐程度如何?
  • RQ4在英语过去时、英语复数 -s、德语复数和现在分词等儿童的习得顺序中,ATP 的发展是否具有发育学可行性?

主要发现

  • ATP 发现的生产性后缀规则的学习顺序与儿童研究中观察到的英语和德语形态学高度吻合。
  • ATP 在英语过去时和德语复数等多种数据集规模下,优于 ED 神经模型。
  • ATP 产生的 Wug-test 产出与人类数据的相关性超过在现实训练规模(400 words)下的神经基线。
  • 在德语中,ATP 在有无性别信息时均保持准确,表明对音系规则的鲁棒提取。
  • ATP 提供透明的决策树,明确表示所学规则(如英语过去时 -ed 规则和德语五个后缀)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。