QUICK REVIEW

[논문 리뷰] Can neural networks acquire a structural bias from raw linguistic data?

Alex Warstadt, Samuel R. Bowman|arXiv (Cornell University)|2020. 07. 14.

Natural Language Processing Techniques참고 문헌 33인용 수 29

한 줄 요약

이 논문은 원시 언어 데이터로 미리 훈련된 신경망인 BERT가 자기지도 학습을 통해 구조적 인덕티브 편향을 습득하는지 조사한다. 네 가지 어휘 현상에 걸쳐 빈도 부족 실험 설계를 사용하여, BERT는 주어-도구어 역전, 반사적 결합, 통합된 동사 시제 탐지 세 영역에서 구조적 편향을 보이며, NPI 허가 영역에서는 선형 일반화를 선호한다. 이는 원시 데이터에서만 구조적 편향이 유도될 수 있음을 강력하게 뒷받침한다.

ABSTRACT

We evaluate whether BERT, a widely used neural network for sentence processing, acquires an inductive bias towards forming structural generalizations through pretraining on raw data. We conduct four experiments testing its preference for structural vs. linear generalizations in different structure-dependent phenomena. We find that BERT makes a structural generalization in 3 out of 4 empirical domains---subject-auxiliary inversion, reflexive binding, and verb tense detection in embedded clauses---but makes a linear generalization when tested on NPI licensing. We argue that these results are the strongest evidence so far from artificial learners supporting the proposition that a structural bias can be acquired from raw data. If this conclusion is correct, it is tentative evidence that some linguistic universals can be acquired by learners without innate biases. However, the precise implications for human language acquisition are unclear, as humans learn language from significantly less data than BERT.

연구 동기 및 목표

신경망이 원시 언어 데이터로 비지도 미리 훈련한 후에도 구조적 인덕티브 편향을 습득할 수 있는지 테스트하는 것.
그러한 편향이 아키텍처 제약이나 레이블 지도 없이도 원시 입력의 통계적 규칙성에서 유래되는지 평가하는 것.
BERT가 계층적 문법적 구조 기반으로 일반화하는지, 아니면 표면 수준의 선형 패턴 기반으로 일반화하는지 조사하는 것.
언어 보편성의 데이터 기반 학습 가능성에 대한 경험적 증거를 제공하여, 인간 언어 습득의 빈도 부족 가정에 도전하는 것.

제안 방법

BERT를 네 가지 이진 분류 작업에 맞추어 훈련시키며, 이는 구조적 일반화와 선형 일반화 사이에서 모호한 설계가 되어 있다.
템플릿과 어휘를 사용하여 주어-도구어 역전, 반사적 결합, NPI 허가, 통합된 동사 시제 탐지에 대한 훈련 및 검증 데이터를 생성한다.
빈도 부족 설계 적용: 구조적 규칙와 선형 규칙가 반대 예측을 내는 데이터로 훈련한 후, 일반화를 해소할 수 있는 최소한의 쌍으로 테스트한다.
검증 예측에 대한 BERT의 예측을 분석하여, 기반 인덕티브 편향이 구조적인지 선형인지 추론한다.
주어-도구어 역전 작업에서 표면적 혼동 요소(예: 상대어-도구어 인접성)를 통제한다.
비지도 미리 훈련이 없는 기준 모델과 비교하여, 저미리 훈련 설정에서의 선형 선호도를 이전 연구 결과를 근거로 삼는다.

실험 결과

연구 질문

RQ1BERT는 원시 데이터로 미리 훈련한 후에, 문법적 구조 민감 현상에 대해 일반화할 때 구조적 인덕티브 편향을 보이는가?
RQ2신경망이 명시적 지도나 아키텍처 제약 없이도 계층적 문법 일반화를 선호할 수 있는가?
RQ3어떤 언어 영역에서 BERT는 구조적 일반화를 선호하고, 어떤 영역에서 선형 패턴을 선호하는가?
RQ4BERT의 관찰된 행동이 순수한 표면적 상관관계에서 비롯된 것일 가능성은 얼마나 높은가?
RQ5이러한 결과는 인간 언어 습득의 빈도 부족 논거를 어느 정도 도전하는가?

주요 결과

BERT는 네 가지 경험적 영역 중 세 곳—주어-도구어 역전, 반사적 결합, 통합된 동사 시제 탐지에서 구조적 인덕티브 편향을 보였다.
NPI 허가 작업에서는 BERT가 선형 일반화를 선호하여, 모든 구조 민감 현상에서 동일한 방식으로 구조적 편향이 유도되지 않는다는 것을 시사한다.
랜덤한 표면 일반화가 네 영역 중 세 곳에서 구조적 예측과 일치할 확률은 약 5퍼센트이며, 이는 우연한 일치 가능성은 낮다는 것을 뜻한다.
비지도 미리 훈련이 없는 기준 모델은 일반적으로 선형 일반화를 선호하는 경향을 보이며, 이는 미리 훈련이 구조적 편향 습득의 핵심 요소임을 시사한다.
이 결과는 자기지도 학습을 통해 원시 언어 데이터에서만 구조적 편향이 유도될 수 있음을 지금까지 가장 광범위하게 뒷받침하는 증거이다.
이러한 발견은 일부 언어 보편성이 데이터로부터 학습 가능할 수 있으며, 언어 습득에서 천재적 편향의 필요성을 도전할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.