Skip to main content
QUICK REVIEW

[논문 리뷰] Recurrent babbling: evaluating the acquisition of grammar from limited input data

Ludovica Pannitto, Aurélie Herbelot|arXiv (Cornell University)|2020. 10. 09.
Natural Language Processing Techniques참고 문헌 79인용 수 14
한 줄 요약

이 논문은 CHILDES 코퍼스의 실제적인 300만 단어 분량의 어린이 대상 언어 데이터를 기반으로 훈련된 문자 수준의 LSTM에서 문법 습득을 평가한다. 생성된 '기저귀' 언어의 분포적 변화를 추적하는 새로운 용도 기반의 방법론을 사용하여, 저자들은 네트워크가 점차적으로 문법적 구성요소를 추상화하고 재생산함을 입증한다. 이는 비어 있는 문법적 패턴까지 포함하여, 제한된 입력 자료로부터도 잠재적 생산성과 조합적 일반화가 발생하고 있음을 시사한다.

ABSTRACT

Recurrent Neural Networks (RNNs) have been shown to capture various aspects of syntax from raw linguistic input. In most previous experiments, however, learning happens over unrealistic corpora, which do not reflect the type and amount of data a child would be exposed to. This paper remedies this state of affairs by training a Long Short-Term Memory network (LSTM) over a realistically sized subset of child-directed input. The behaviour of the network is analysed over time using a novel methodology which consists in quantifying the level of grammatical abstraction in the model's generated output (its "babbling"), compared to the language it has been exposed to. We show that the LSTM indeed abstracts new structuresas learning proceeds.

연구 동기 및 목표

  • 기존의 생성 문법 이론에 도전하는 바탕으로, RNN이 제한된 어린이 유사 입력 데이터로부터 추상적인 문법적 구조를 학습할 수 있는지 조사하기 위해.
  • 후행 작업이나 외부 주석에 의존하지 않고도 신경망의 문법 추상화를 평가할 수 있는 방법론을 개발하기 위해.
  • 신경망이 용도 기반의 구성주의적 관점에서 인간 유사한 문법적 생산성을 시뮬레이션할 수 있는가를 시험하고, 어휘와 문법의 경계를 흐리게 하기 위해.
  • 훈련 과정 동안 모델이 생성한 언어의 분포 패턴이 어떻게 변화하는지 분석하기 위해, 입력 공간과 출력 공간의 카테나 간 코사인 유사도를 사용하기 위해.

제안 방법

  • CHILDES의 300만 단어 분량의 어린이 대상 영어 데이터를 기반으로 한 순수한 문자 수준의 LSTM을 훈련한다.
  • 훈련의 여러 에포크 동안 텍스트 샘플('기저귀')을 생성하여 언어의 진화를 추적한다.
  • 의존성 파싱을 사용하여 입력과 모델이 생성한 출력 양측에서 카테나(구문적 구성요소)를 추출한다.
  • 입력(CHILDES)과 모델 생성('기저귀')의 카테나 간 코사인 유사도를 계산하여 분포적 이동을 정량화한다.
  • 세 그룹(부정적, 중간, 긍정적 유사도 이동) 간의 유사도 이동을 비교하기 위해 덴(post-hoc) 검정을 적용한다.
  • 분포적 의미론을 사용하여 형-의미 쌍을 구성으로 모델링하고, 어휘적, 부분적, 문법적 항목을 모두 구축사전 내의 동등한 단위로 간주한다.

실험 결과

연구 질문

  • RQ1제한된 어린이 유사 입력 데이터를 기반으로 훈련된 문자 수준의 LSTM이 시간이 지남에 따라 문법적 구성요소를 얼마나 잘 추상화하고 재생산하는가?
  • RQ2입력 언어와 모델이 생성한 언어 간의 분포적 유사도는 어떻게 변화하는가? 이는 어떤 문법적 추상화를 드러내는가?
  • RQ3명시적인 인도적 편향 없이도 신경망이 인간의 언어 습득에서 관찰되는 생산성과 조합적 일반화를 시뮬레이션할 수 있는가?
  • RQ4다양한 유형의 입력 데이터(예: OpenSubtitles vs. Simple Wikipedia)는 모델이 문법 패턴을 학습하고 일반화하는 데 어떤 영향을 미치는가?

주요 결과

  • 모델 훈련 과정 동안 생성된 '기저귀' 언어와 입력 CHILDES 데이터 간의 분포적 유사도가 유의미하게 증가했으며, 고이동 카테나의 평균 코사인 유사도 이동은 0.18이다.
  • ‘you VERB you’ 및 ‘we can VERB’와 같은 카테나는 에포크 5에서 35로 갈수록 코사인 유사도가 0.49에서 0.74로 증가하여 입력 패턴과 점점 더 잘 일치함을 보였다.
  • ‘AUX hungry @cop @conj’와 같은 비어 있는 문법적 패턴도 코사인 유사도 0.68로 에포크 35에 도달하여, 기계적 암기 초월한 추상화가 이루어졌음을 시사한다.
  • OpenSubtitles 데이터는 Simple Wikipedia보다 CHILDES와 더 높은 유사도를 보였으며, 이는 어린이 유사 문법 습득 연구에 더 적합한 벤치마크임을 시사한다.
  • 던(post-hoc) 검정 결과, 부정적 그룹과 긍정적 그룹에서 각각 p < 0.05의 유의미한 유사도 이동이 확인되었으며, p값은 각각 6.83e-06과 4.15e-29로, 관찰된 추세의 강건성을 입증하였다.
  • ‘what @advmod VERB’와 같은 비어 있는 구성요소에 대한 일반화 능력은 모델이 잠재적 생산성을 갖추고 있음을 보여주며, RNN에서 조합적 일반화가 발생하고 있음을 지지하는 증거가 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.