Skip to main content
QUICK REVIEW

[논문 리뷰] Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language

Yuri Kuratov, Mikhail Arkhipov|arXiv (Cornell University)|2019. 05. 17.
Topic Modeling참고 문헌 16인용 수 257
한 줄 요약

이 논문은 다국어 BERT에서 모노링구얼 러시아어 BERT 모델을 초기화하는 것이 러시아 NLP 작업에서 성능을 향상시키고 학습 시간을 단축시키며, 다국어 뿌리에서 파생된 러시아어 특화 어휘와 임베딩을 제공한다.

ABSTRACT

The paper introduces methods of adaptation of multilingual masked language models for a specific language. Pre-trained bidirectional language models show state-of-the-art performance on a wide range of tasks including reading comprehension, natural language inference, and sentiment analysis. At the moment there are two alternative approaches to train such models: monolingual and multilingual. While language specific models show superior performance, multilingual models allow to perform a transfer from one language to another and solve tasks for different languages simultaneously. This work shows that transfer learning from a multilingual model to monolingual model results in significant growth of performance on such tasks as reading comprehension, paraphrase detection, and sentiment analysis. Furthermore, multilingual initialization of monolingual model substantially reduces training time. Pre-trained models for the Russian language are open sourced.

연구 동기 및 목표

  • 다국어 BERT에서 모노링구얼 러시아어 모델로의 전이(전이 학습)가 성능 향상을 가져온다는 것을 보여준다.
  • 다국어 초기화가 수렴 속도를 높이고 러시아어 모델의 학습 시간을 단축시킨다는 것을 보여준다.
  • 러시아어 특화 어휘를 갖춘 RuBERT를 개발하고 러시아 NLP 작업에서 평가한다.
  • DeepPavlov 생태계 내에서 오픈 소스 러시아어 사전학습 모델과 재현 가능한 코드를 제공한다.

제안 방법

  • 러시아어에 대해 단어 임베딩을 제외한 모든 파라미터를 포함해 다국어 BERT 모델에서 초기화된 12-layer BERT-base Transformer 인코더를 사용한다.
  • 러시아 Wikipedia 및 뉴스 데이터를 이용해 subword-nmt로 학습한 새로운 러시아어 서브워드 어휘를 만든다.
  • 다국어 어휘와 모노링구얼 어휘의 교집합을 병합하여 새로운 임베딩을 구성하고 겹치는 토큰의 평균 임베딩으로 새로운 토큰을 초기화한다.
  • 모노링구얼 러시아어 모델을 모노링구얼 어휘를 구축하는 데 사용된 동일한 데이터로 학습시키며 배치 사이즈 256, 학습률 2e-5, Adam 옵티마이저, L2 정규화 0.01을 사용한다.
  • 세 가지 작업에서 평가한다: paraphrase identification (ParaPhraser), 감정 분석 (RuSentiment), 및 질문 응답 (SDSJ Task B).
  • 다국어 BERT, 처음부터 학습된 모노링구얼 러시아어 모델, 그리고 제안된 RuBERT를 비교한다.

실험 결과

연구 질문

  • RQ1다국어 BERT 가중치로 초기화하는 것이 모노링구얼 러시아어 모델의 이익이 될 수 있는가?
  • RQ2다국어 초기화가 러시아어 모노링구얼 모델의 수렴 속도를 높이고 학습 시간을 단축시키는가?
  • RQ3RuBERT가 다국어 BERT 및 처음부터 학습된 모델과 비교하여 러시아어 NLP 과제에서 어떤 성과를 보이는가?
  • RQ4언어 특화 러시아어 어휘가 모델 효율성과 성능에 어떤 영향을 주는가?

주요 결과

  • RuBERT는 평가된 모든 러시아어 과제(ParaPhraser 및 RuSentiment) 및 QA에서 다국어 BERT보다 우수하며, 최상 보고 수치는 다음과 같다: ParaPhraser F-1 87.73 및 정확도 84.99; RuSentiment F-1 84.60; SDSJ Task B QA EM 66.30.
  • 다국어 초기화는 무작위 초기화보다 더 빠른 수렴을 보이며, 무작위 초기화로 800k 단계에 해당하는 손실에 도달하는 데 약 250k 단계가 필요하여 Tesla P100 x8에서 약 6일의 컴퓨트를 절약한다.
  • RuBERT 모델은 러시아어 특화 어휘(~120k 서브토큰)를 사용하여 다국어 어휘에 비해 평균 시퀀스 길이를 약 1.6배 감소시켜 더 큰 배치나 더 긴 입력을 가능하게 한다.
  • 훈련 역학은 다국어 초기화가 수렴 속도와 학습 효율성을 향상시킴을 보여주며, 새로운 서브토큰 임베딩의 평균화가 수렴에 긍정적 영향을 준다.
  • 재현성을 위한 오픈 소스 러시아어 사전학습 모델과 코드는 DeepPavlov 라이브러리를 통해 이용 가능합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.