QUICK REVIEW

[논문 리뷰] Tolerance Principle and Small Language Model Learning

Adam E. Friedman, Stevan Harnad|arXiv (Cornell University)|2026. 01. 17.

Language Development and Disorders인용 수 0

한 줄 요약

본 연구는 Yang's Tolerance Principle이 인공 문법으로 학습된 작은 트랜스포머 모델(BabyBERTa)의 학습을 지배하는지 여부를 시험하고, 원칙과 일치하지 않는 학습 역학을 발견한다.

ABSTRACT

Modern language models like GPT-3, BERT, and LLaMA require massive training data, yet with sufficient training they reliably learn to distinguish grammatical from ungrammatical sentences. Children aged as young as 14 months already have the capacity to learn abstract grammar rules from very few exemplars, even in the presence of non-rule-following exceptions. Yang's (2016) Tolerance Principle defines a precise threshold for how many exceptions a rule can tolerate and still be learnable. The present study explored the minimal amount and quality of training data necessary for rules to be generalized by a transformer-based language model to test the predictions of the Tolerance Principle. We trained BabyBERTa (Huebner et al. 2021), a transformer model optimized for small datasets, on artificial grammars. The training sets varied in size, number of unique sentence types, and proportion of rule-following versus exception exemplars. We found that, unlike human infants, BabyBERTa's learning dynamics do not align with the Tolerance Principle.

연구 동기 및 목표

인간 영아의 문법 학습과 작은 모델의 학습 간 비교를 동기 부여한다.
트랜스포머가 문법 규칙을 일반화할 수 있는 최소 데이터 조건을 조사한다.
작은 LM에서 훈련 데이터 양, 문장 유형 다양성, 규칙/예외의 비율이 학습 가능성에 미치는 영향을 테스트한다.
BabyBERTa와 같은 작은 모델에서 Tolerance Principle가 학습 결과를 예측하는지 평가한다.

제안 방법

작은 데이터 세트에 최적화된 트랜스포머인 BabyBERTa를 다양한 훈련 데이터로 인공 문법에 대해 훈련시킨다.
훈련 데이터의 크기, 고유 문장 유형의 수, 규칙을 따르는 예제와 예외 예제의 비율을 체계적으로 변화시킨다.
모형이 훈련 세트를 넘어 새로운 사례에 대해 문법 규칙을 일반화하는지 평가한다.
관찰된 학습 역동을 Tolerance Principle가 예측하는 임계값과 비교한다.
작은 LM에 원칙이 인간 학습자에게 적용되는지와 마찬가지로 적용되는지 판단하기 위해 결과를 분석한다.

실험 결과

연구 질문

RQ1다양한 데이터 조건에서 BabyBERTa의 문법 규칙 일반화가 Yang의 Tolerance Principle과 일치하는가?
RQ2훈련 세트 크기, 문장 유형 다양성, 규칙/예외 비율이 작은 트랜스포머 모델의 학습 가능성에 어떻게 영향을 미치는가?
RQ3추상 문법 규칙에 노출될 때 작은 언어 모델이 인간 영아와 비견될 만큼의 학습 역학을 보이는가?

주요 결과

BabyBERTa의 학습 역학은 Tolerance Principle과 일치하지 않는다.
모형의 성능은 훈련 데이터 구성에 따라 원칙으로 포착되지 않는 방식으로 의존한다.
제한된 소형 모델 데이터 구성은 유사한 조건에서 인간 영아와 다른 학습 가능성 패턴을 초래한다.
결과는 작은 언어 모델에 대한 Tolerance Principle의 보편성에 도전을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.