QUICK REVIEW

[논문 리뷰] WECHSEL: Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models

Benjamin Minixhofer, Fabian Paischer|arXiv (Cornell University)|2021. 12. 13.

Topic Modeling참고 문헌 47인용 수 25

한 줄 요약

WECHSEL은 다국어 정적 단어 임베딩을 사용해 서브워드 임베딩을 초기화함으로써 단일 언어 언어 모델을 새로운 언어로 이식하는 방법으로, 최대 64배 적은 학습 노력으로 사전 학습된 모델에 비해 유사한 성능을 달성한다. 이는 랜덤 초기화 및 이전의 전이 방법들(예: TransInner)을 모두 초월하며, 자원이 적은 언어를 포함한 여러 언어에서 성능을 발휘한다.

ABSTRACT

Large pretrained language models (LMs) have become the central building block of many NLP applications. Training these models requires ever more computational resources and most of the existing models are trained on English text only. It is exceedingly expensive to train these models in other languages. To alleviate this problem, we introduce a novel method -- called WECHSEL -- to efficiently and effectively transfer pretrained LMs to new languages. WECHSEL can be applied to any model which uses subword-based tokenization and learns an embedding for each subword. The tokenizer of the source model (in English) is replaced with a tokenizer in the target language and token embeddings are initialized such that they are semantically similar to the English tokens by utilizing multilingual static word embeddings covering English and the target language. We use WECHSEL to transfer the English RoBERTa and GPT-2 models to four languages (French, German, Chinese and Swahili). We also study the benefits of our method on very low-resource languages. WECHSEL improves over proposed methods for cross-lingual parameter transfer and outperforms models of comparable size trained from scratch with up to 64x less training effort. Our method makes training large language models for new languages more accessible and less damaging to the environment. We make our code and models publicly available.

연구 동기 및 목표

영어 이외의 언어에서 대규모 언어 모델을 사전 학습하는 데 드는 높은 계산 비용과 환경적 영향을 해결하기 위해.
서브워드 임베딩 초기화를 위해 다국어 정적 단어 임베딩을 활용하여 다국어 간 전이 효율을 향상시키기 위해.
최소한의 학습으로 저자원 및 중간자원 언어에 대해 RoBERTa 및 GPT-2와 같은 단일 언어 모델의 효과적인 전이를 가능하게 하기 위해.
‘다국어성의 저주’로 인해 성능이 저하되는 대규모 다국어 모델에 대한 의존도를 줄이기 위해.
새로운 언어에서 대규모 언어 모델을 학습하는 것을 더 접근 가능하고 환경적으로 지속 가능하게 만들기 위해.

제안 방법

원천 영어 모델의 모든 비임베딩 파rameter를 타겟 언어 모델로 복사하여 단일 언어 언어 모델을 이식한다.
새로운 언어에서 서브워드 토크나이저를 사용하기 위해 영어 토크나이저를 타겟 언어 토크나이저로 교체한다.
정서적 유사도를 사용해 다국어 정적 단어 임베딩을 서브워드 단위에 매핑함으로써 타겟 언어의 서브워드 임베딩을 초기화한다.
다국어 단어 임베딩(예: fastText)을 사용해 타겟 언어의 서브워드를 의미적으로 유사한 영어 서브워드와 정렬한다.
최소한의 미세조정 스텝을 사용해 전이된 모델을 학습함으로써, 사전 학습된 모델을 훈련하는 것보다 학습 비용을 크게 감소시킨다.
저자원 언어를 포함한 여러 언어에서 인코더(RoBERTa) 및 디코더(GPT-2) 아키텍처에 이 방법을 적용한다.

실험 결과

연구 질문

RQ1다국어 정적 단어 임베딩을 사용해 서브워드 임베딩을 효과적으로 초기화할 수 있는가? 이는 단일 언어 언어 모델의 다국어 간 전이를 향상시킬 수 있는가?
RQ2WECHSEL은 무작위 초기화 또는 이전의 전이 방법에 비해 높은 성능에 도달하기 위해 필요한 학습 스텝 수를 줄일 수 있는가?
RQ3자원이 적은 언어에서 WECHSEL의 성능은 어떠한가? 데이터와 계산 자원이 제한된 상황에서 얼마나 효과적인가?
RQ4비슷한 크기의 모델이 더 많은 계산 자원을 사용해 사전 학습된 모델에 비해 WECHSEL이 성능에서 뛰어나게 되는가?
RQ5TransInner와 같은 방법과 비교해 WECHSEL을 사용할 때 비임베딩 파rameter를 동결하는 것이 필수적인가?

주요 결과

WECHSEL은 모든 언어와 작업에서 랜덤 초기화 모델(FullRand) 및 TransInner 방법을 모두 초월한다. RoBERTa의 NER 및 NLI 작업과 GPT-2의 퍼플렉서티 작업 모두에서 성능이 뛰어나다.
RoBERTa의 경우, CamemBERT 및 GBERTBase와 같은 모델가 요구하는 학습 스텝의 1/64에 불과한 스텝 수로 프랑스어, 독일어, 중국어, 스와힐리어의 NER 및 NLI 작업에서 최고 성능을 기록했다.
GPT-2의 경우, 중·저자원 언어에서 FullRand 및 TransInner보다 낮은 퍼플렉서티를 달성했으며, 데이터가 적은 환경에서도 일관된 성능 향상을 보였다.
스운다네시어, 스코트랜드 갈리시아어, 우이그르어, 말라가시어와 같은 저자원 언어에서는 데이터 부족이 심할수록 WECHSEL의 성능 향상이 더 두드러졌으며, 이는 저자원 환경에서의 높은 내구성을 시사한다.
WECHSEL을 사용할 때 비임베딩 파arameter를 동결할 필요가 없었으며, TransInner와는 달리 의미 기반 초기화가 학습을 초기 단계부터 안정화시켰다.
이 방법을 통해 사전 학습된 모델에 비해 최대 64배 적은 학습 노력으로도 효과적인 단일 언어 언어 모델을 새로운 언어에서 학습할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.