QUICK REVIEW

[논문 리뷰] Grammatical Analysis of Pretrained Sentence Encoders with Acceptability Judgments.

Alex Warstadt, Samuel R. Bowman|arXiv (Cornell University)|2019. 01. 11.

Natural Language Processing Techniques참고 문헌 29인용 수 22

한 줄 요약

이 논문은 언어학적 수용성 코퍼스(CoLA)의 문법적으로 주석이 달린 개발 세트에서 미세조정(fine-tuning)을 통해 사전학습된 문장 인코더들—OpenAI GPT, BERT 및 기타 모델들—의 문법 지식을 평가한다. 결과적으로 모델들은 간단한 문법 현상인 보조어 수정과 같은 것을 쉽게 학습하지만, 장거리 의존성과 형태적 일치와 같은 복잡한 구조에서는 어려움을 겪는 것으로 나타나, 최종 작업에서의 뛰어난 성능에도 불구하고 암묵적인 문법 이해 능력이 제한되어 있음을 시사한다.

ABSTRACT

Recent pretrained sentence encoders achieve state of the art results on language understanding tasks, but does this mean they have implicit knowledge of syntactic structures? We introduce a grammatically annotated development set for the Corpus of Linguistic Acceptability (CoLA; Warstadt et al., 2018), which we use to investigate the grammatical knowledge of three pretrained encoders, including the popular OpenAI Transformer (Radford et al., 2018) and BERT (Devlin et al., 2018). We fine-tune these encoders to do acceptability classification over CoLA and compare the models' performance on the annotated analysis set. Some phenomena, e.g. modification by adjuncts, are easy to learn for all models, while others, e.g. long-distance movement, are learned effectively only by models with strong overall performance, and others still, e.g. morphological agreement, are hardly learned by any model.

연구 동기 및 목표

사전학습된 문장 인코더들이 NLP 작업에서의 성공에도 불구하고 암묵적으로 문법적 구조를 학습하는지 평가하는 것.
장거리 이동과 형태적 일치와 같은 복잡한 문법 현상에 대해 모델이 얼마나 잘 학습하는지 범위를 조사하는 것.
계산 가능한 문법 주석이 달린 개발 세트를 개발하고 활용하여 문법 일반화 능력을 체계적으로 평가할 수 있도록 하는 것.
GPT, BERT 및 기타 최신 인코더들 간의 문법 수용성 분류 성능을 비교하는 것.

제안 방법

언어학적 수용성 코퍼스(CoLA)의 문법적으로 주석이 달린 부분집합에서 OpenAI GPT, BERT 및 제3의 모델을 포함한 세 개의 사전학습된 문장 인코더를 미세조정한다.
주석이 달린 개발 세트를 사용하여 보조어 수정, 장거리 이동, 형태적 일치 등 다양한 문법 현상에서의 모델 성능을 평가한다.
이진 분류기(acceptability judgment)를 훈련하여, 입력은 문장이고 출력은 인간이 주석 달은 수용성 점수인 구조를 사용한다.
다양한 문법 범주에서의 모델 예측을 분석하여 어떤 구조는 효과적으로 학습되었고 어떤 것은 그렇지 않은지 파악한다.
모델 간 성능을 비교하여, 특히 높은 성능과 낮은 성능을 보이는 모델 간의 문법 일반화 능력의 차이를 확인한다.
정량적 지표를 사용하여 별개의 문법 현상에서의 분류 정확도를 평가함으로써, 문법 지식에 대한 세밀한 분석을 가능하게 한다.

실험 결과

연구 질문

RQ1사전학습된 문장 인코더들이 보조어 수정 및 장거리 의존성과 같은 문법 구조를 얼마나 잘 학습하는가?
RQ2이러한 모델들이 복잡한 문법 현상인 형태적 일치에 대해 얼마나 잘 일반화하는가?
RQ3어느 문법 현상이 모델에 의해 가장 쉽게 학습되고, 어느 것은 뛰어난 총합 성능에도 불구하고 여전히 도전적인가?
RQ4CoLA에서 높은 총합 성능를 보이는 모델들이 다양한 문법 구성에서 더 나은 문법 일반화 능력을 보이는가?

주요 결과

CoLA에서 뛰어난 총합 성능를 보이는 모델들은 복잡한 문법 현상인 장거리 이동을 효과적으로 학습하는 반면, 성능이 낮은 모델들은 이를 성취하지 못한다.
모든 모델이 보조어 수정을 쉽게 학습함으로써, 현재의 인코더들이 더 단순한 문법적 구조를 잘 포착하고 있음을 시사한다.
모든 모델이 형태적 일치를 잘 학습하지 못함으로써, 이러한 현상에 대한 문법 지식의 심각한 격차가 있음을 시사한다.
모델 간의 문법 현상에서의 성능 격차는 총합 성능와 상관관계가 있으며, 이는 문법 일반화 능력이 아키텍처 전반에 균일하게 분포되어 있지 않음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.