QUICK REVIEW

[論文レビュー] Tolerance Principle and Small Language Model Learning

Adam E. Friedman, Stevan Harnad|arXiv (Cornell University)|Jan 17, 2026

Language Development and Disorders被引用数 0

ひとこと要約

この研究は Yang のTolerance Principle が小型トランスフォーマーモデル（BabyBERTa）による学習を支配するかを人工文法で訓練して検証し、原理と alignmentしない学習ダイナミクスを見出した。

ABSTRACT

Modern language models like GPT-3, BERT, and LLaMA require massive training data, yet with sufficient training they reliably learn to distinguish grammatical from ungrammatical sentences. Children aged as young as 14 months already have the capacity to learn abstract grammar rules from very few exemplars, even in the presence of non-rule-following exceptions. Yang's (2016) Tolerance Principle defines a precise threshold for how many exceptions a rule can tolerate and still be learnable. The present study explored the minimal amount and quality of training data necessary for rules to be generalized by a transformer-based language model to test the predictions of the Tolerance Principle. We trained BabyBERTa (Huebner et al. 2021), a transformer model optimized for small datasets, on artificial grammars. The training sets varied in size, number of unique sentence types, and proportion of rule-following versus exception exemplars. We found that, unlike human infants, BabyBERTa's learning dynamics do not align with the Tolerance Principle.

研究の動機と目的

人間の infant 言語習得と小型モデルの学習の比較を動機づける。
トランスフォーマーが文法規則を一般化できる最小データ条件を調査する。
訓練データセットサイズ、文型の多様性、規則/例外の混在度が小型LMの学習性に与える影響を検証する。
BabyBERTa のような小型モデルでTolerance Principle が学習結果を予測するかを評価する。

提案手法

データセットが小さいデータセット向けに最適化されたトランスフォーマー BabyBERTa を人工文法で訓練する。
訓練データのサイズ、ユニークな文型の数、規則遵守例と例外の割合を系統的に変化させる。
モデルが訓練セットを超えた新しいインスタンスに対して文法規則を一般化するかを評価する。
観察された学習ダイナミクスをTolerance Principle が予測する閾値と比較する。
原理が人間の学習者と同様に小型LMに適用されるかを結果から分析する。

実験結果

リサーチクエスチョン

RQ1BabyBERTa の文法規則の一般化は、データ条件の変化下で Yang の Tolerance Principle と整合するか。
RQ2訓練データサイズ、文型多様性、および規則/例外比が小型トランスフォーマーの学習性にどう影響するか。
RQ3抽象文法規則に曝露された場合、小型言語モデルは人間の乳児と同様の学習ダイナミクスを示すか。

主な発見

BabyBERTa の学習ダイナミクスは Tolerance Principle と整合しない。
モデルの性能は訓練データの構成に依存し、原理が捕捉できない形で変化する。
有限な小型モデルのデータ配置は、同等条件下の人間の乳児とは異なる学習性を示す。
結果は小型言語モデルに対する Tolerance Principle の普遍性に挑む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。