QUICK REVIEW

[논문 리뷰] How much pretraining data do language models need to learn syntax?

Laura Pérez-Mayos, Miguel Ballesteros|arXiv (Cornell University)|2021. 09. 07.

Topic Modeling인용 수 4

한 줄 요약

이 연구는 100만~10억 단어의 데이터로 훈련된 MiniBERTa 모델을 사용하여 RoBERTa 모델에서 사전 훈련 데이터 크기가 문법적 학습에 어떤 영향을 미치는지 조사한다. 더 큰 데이터는 문법적 인코딩과 후행 작업 성능을 향상시키지만, 성능 향상은 점진적이며 높은 재정적 및 환경적 비용을 수반하며, 특정 문법 현상에서는 더 작은 모델이 더 뛰어난 성능을 보일 수 있음을 발견한다.

ABSTRACT

Transformers-based pretrained language models achieve outstanding results in many well-known NLU benchmarks. However, while pretraining methods are very convenient, they are expensive in terms of time and resources. This calls for a study of the impact of pretraining data size on the knowledge of the models. We explore this impact on the syntactic capabilities of RoBERTa, using models trained on incremental sizes of raw text data. First, we use syntactic structural probes to determine whether models pretrained on more data encode a higher amount of syntactic information. Second, we perform a targeted syntactic evaluation to analyze the impact of pretraining data size on the syntactic generalization performance of the models. Third, we compare the performance of the different models on three downstream applications: part-of-speech tagging, dependency parsing and paraphrase identification. We complement our study with an analysis of the cost-benefit trade-off of training such models. Our experiments show that while models pretrained on more data encode more syntactic knowledge and perform better on downstream applications, they do not always offer a better performance across the different syntactic phenomena and come at a higher financial and environmental cost.

연구 동기 및 목표

사전 훈련 데이터 크기를 증가시킬수록 RoBERTa 모델의 문법 지식 습득 방식에 어떤 영향을 미치는지 평가하는 것.
더 큰 모델이 다양한 문법 현상에 대해 더 잘 일반화되는지 평가하는 것.
데이터 스케일링된 모델 간 POS 태깅, 의존 구문 분석, 의미 유사성 식별 작업에서의 후행 작업 성능을 비교하는 것.
더 큰 모델을 훈련시키는 데 드는 재정적 및 환경적 비용-편익의 상충 관계를 분석하는 것.
더 높은 퍼즐러피티(perplexity)가 향상된 문법 일반화 성능과 관련이 있는지 확인하는 것.

제안 방법

100만~10억 단어의 증분 데이터 크기로 12개의 RoBERTa 모델(ミニBERTa)을 훈련하는 것.
Hewitt와 Manning(2019b)의 문법적 구조 탐지기(structural probes)를 적용하여 문법 정보 인코딩 수준을 측정하는 것.
SyntaxGym과 Hu 등(2020)의 문법 테스트 세트를 사용하여 6개의 테스트 회로에서의 문법 일반화 능력을 평가하는 것.
세 가지 후행 작업(POS 태깅, 의존 구문 분석(LAS), 의미 유사성 식별(F1))에서 모델을 미세 조정하는 것.
모델당 사전 훈련 런 수와 컴퓨팅 자원 사용량을 기반으로 훈련 비용과 CO2 배출량을 추정하는 것.
성능 향상과 재정적 및 환경적 비용 간의 비용-편익 분석을 수행하는 것.

실험 결과

연구 질문

RQ1사전 훈련 데이터 크기를 늘릴수록 RoBERTa 모델의 문법 정보 인코딩 수준이 높아지는가?
RQ2더 많은 데이터로 사전 훈련된 모델은 다양한 문법 현상에 대해 더 잘 일반화되는가?
RQ3후행 작업 성능 향상은 사전 훈련 데이터 크기 증가와 비례하는가?
RQ4더 큰 모델을 훈련시키는 데 드는 재정적 및 환경적 비용은 무엇이며, 성능 향상으로 인해 정당화되는가?
RQ5퍼즐러피티와 문법 일반화 성능 간에 상관관계가 있는가?

주요 결과

Hewitt와 Manning의 구조 탐지기를 통해 측정한 결과, 더 많은 데이터로 사전 훈련된 모델이 유의미하게 더 많은 문법 정보를 인코딩한다.
높은 문법 인코딩에도 불구하고, 가장 큰 모델(10억 단어)은 총 문법 상태 테스트 회로에서 더 작은 모델보다 성능이 열 劣했으며, 더 작은 모델이 더 높은 점수를 기록했다.
POS 태깅, 의존 구문 분석, 의미 유사성 식별 작업에서의 성능 향상은 점진적이었으며, 10억 단어 모델은 1억 단어 모델 대비 0.5%~2.02%의 성능 향상만 보였다.
10억 단어 모델을 훈련시키는 데 드는 재정 비용은 20,000달러였으며, CO2 배출량은 약 6,990파운드로, 횡대서 항공편의 배출량을 초과했다.
비용-편익 분석 결과, 더 큰 모델에서 얻는 소규모 성능 향상은 재정적 및 환경적 비용에 비해 비례하지 않음을 확인했다.
퍼즐러피티와 SyntaxGym 점수 간에 명확한 상관관계를 발견하지 못했으며, 이는 낮은 퍼즐러피티가 더 나은 문법 일반화 성능을 보장하지는 않음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.