QUICK REVIEW

[논문 리뷰] From English To Foreign Languages: Transferring Pre-trained Language Models

Ke Tran|arXiv (Cornell University)|2020. 02. 18.

Topic Modeling참고 문헌 28인용 수 23

한 줄 요약

이 논문은 한 개의 GPU를 사용하여 사전 훈련된 영어 BERT 모델을 다른 언어로 빠르게 전이할 수 있는 RAMEN 방법을 제안한다. 이는 정렬된 fastText 벡터를 사용해 외국어 단어 임베딩을 초기화하고, 이중어 모델을 단일 GPU로 미세조정한다. 이 방법은 6개 언어에서 자연어 추론과 의존성 파싱 작업에서 다국어 BERT(mBERT)보다 경쟁적 또는 더 뛰어난 제로샷 성능을 달성하며, 훈련 시간이 2일 이내로 완료된다.

ABSTRACT

Pre-trained models have demonstrated their effectiveness in many downstream natural language processing (NLP) tasks. The availability of multilingual pre-trained models enables zero-shot transfer of NLP tasks from high resource languages to low resource ones. However, recent research in improving pre-trained models focuses heavily on English. While it is possible to train the latest neural architectures for other languages from scratch, it is undesirable due to the required amount of compute. In this work, we tackle the problem of transferring an existing pre-trained model from English to other languages under a limited computational budget. With a single GPU, our approach can obtain a foreign BERT base model within a day and a foreign BERT large within two days. Furthermore, evaluating our models on six languages, we demonstrate that our models are better than multilingual BERT on two zero-shot tasks: natural language inference and dependency parsing.

연구 동기 및 목표

제한된 컴퓨팅 예산 하에서 저자원 언어에 대해 고성능 영어 사전 훈련된 언어 모델을 전이하는 데 도전한다.
초기 훈련 없이 영어 BERT를 다른 언어로 신속하고 효율적으로 적응시킬 수 있도록 한다.
이론적 전이 학습을 통해 구축된 이중어 모델이 제로샷 다국어 작업에서 다국어 BERT와 동등하거나 이를 초월할 수 있는지 평가한다.
감독된 의존성 파싱 작업에서 전이된 모델이 특징 추출기로 효과적으로 기능할 수 있는지 조사한다.

제안 방법

번역 쌍 간의 의미적 유사성을 보장하기 위해, 정렬된 fastText 벡터를 사용해 영어 임베딩 공간에서 목표 언어의 단어 임베딩을 초기화한다.
사전 훈련된 영어 BERT 인코더 레이어를 고정하고, 첫 번째 적응 단계에서는 목표 언어의 단어 임베딩만 훈련한다.
영어와 목표 언어의 임베딩을 결합한 이중어 언어 모델을 구성하고, 양 언어의 단일 언어 데이터에서 모든 파라미터를 함께 미세조정한다.
컨텍스트 표현을 유지하고 제로샷 전이 성능을 향상시키기 위해, 미세조정 중에 마스크된 언어 모델링 목표를 사용한다.
단일 GPU를 활용해 이중어 모델을 훈련하여, 기본형은 20시간, 대형 버전은 46시간 내로 훈련 시간을 단축시켰다.
효율성과 효과성을 검증하기 위해, 동일한 데이터에서 훈련된 mBERT와 사전 훈련된 BERT 모델과의 성능을 비교한다.

실험 결과

연구 질문

RQ1사용자 자원이 제한된 조건에서 사전 훈련된 영어 BERT 모델을 최소한의 컴퓨팅 비용으로 다른 언어로 효과적으로 전이할 수 있는가?
RQ2외국어 단어 임베딩 초기화의 품질이 제로샷 다국어 전이 성능에 어떤 영향을 미치는가?
RQ3전이된 이중어 모델이 제로샷 자연어 추론과 의존성 파싱에서 다국어 BERT를 능가하는가?
RQ4전이된 모델이 감독된 의존성 파싱 작업에서 효과적인 특징 추출기로 기능할 수 있는가?

주요 결과

RAMEN는 단일 Tesla V100 GPU를 사용해 기존 모델을 초기화하는 데 20시간, 대형 모델을 초기화하는 데 46시간으로, 초기 훈련과 비교해 훈련 시간을 크게 단축시켰다.
6개 언어에서 RAMEN은 자연어 추론(XNLI)과 의존성 파싱 모두에서 mBERT를 능가하며, 무작위 초기화를 사용할 경우 XNLI 평균 성능 향상률이 10.3%에 이르렀다.
정렬된 fastText 벡터를 사용해 적절한 초기화를 수행한 RAMEN은 아랍어나 히브리어와 같이 형태학적으로 풍부하고 SOV 구조를 가진 언어에서 mBERT보다 더 뛰어난 제로샷 성능을 달성했다.
단지 20,000개의 훈련 업데이트(3.5 GPU 시간)만으로도 RAMEN는 400시간 훈련된 BERT 모델보다 의존성 파싱에서 더 높은 성능을 보였으며, 높은 샘플 효율성을 입증했다.
감독된 의존성 파싱 작업에서 RAMEN + RoBERTa-large는 LAS 점수 86.5를 기록해 mBERT(84.6)를 능가했으며, 특징 추출기로서의 잠재력을 보여주었다.
전이된 모델의 성능은 원본 영어 BERT 모델의 성능과 강하게 상관관계가 있었으며, 고품질의 영어 사전 훈련이 효과적인 다국어 지식 전이를 가능하게 함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.