QUICK REVIEW

[논문 리뷰] XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

Zewen Chi, Shaohan Huang|arXiv (Cornell University)|2021. 06. 30.

Natural Language Processing Techniques인용 수 24

한 줄 요약

XLM-E는 크로스링구얼 학습을 위한 ELECTRA-style 사전학습 작업을 도입하고, 다국어 대체 토큰 탐지(Multilingual Replaced Token Detection)와 번역 대체 토큰 탐지(Translation Replaced Token Detection)를 결합해 계산량을 훨씬 줄이면서도 경쟁력 있는 크로스링구얼 이해를 달성한다.

ABSTRACT

In this paper, we introduce ELECTRA-style tasks to cross-lingual language model pre-training. Specifically, we present two pre-training tasks, namely multilingual replaced token detection, and translation replaced token detection. Besides, we pretrain the model, named as XLM-E, on both multilingual and parallel corpora. Our model outperforms the baseline models on various cross-lingual understanding tasks with much less computation cost. Moreover, analysis shows that XLM-E tends to obtain better cross-lingual transferability.

연구 동기 및 목표

MLM 기반 접근 방식보다 더 계산 효율적인 objectives로 크로스링구얼pre-training을 자극한다.
ELECTRA-style discriminative pre-training tasks를 다국어 및 병렬 데이터에 대해 제안한다.
다국어 및 병렬 코퍼스에서 XLM-E를 사전학습시켜 크로스링구얼 전달을 향상시킨다.
XTREME 벤치마크 전반에서 효율성 향상과 전달 가능성을 입증한다.

제안 방법

핵심 사전학습 목표로 ELECTRA-style replaced token detection을 채택한다.
언어 간 공유 생성기/판별기를 이용한 Multilingual Replaced Token Detection (MRTD)을 정의한다.
Parallel 코퍼스를 활용해 Translation Replaced Token Detection (TRTD)을 정의하고 번역 쌍에서 대체 토큰을 탐지한다.
다국어 및 병렬 데이터에서 결합 손실을 사용해 생성기(작은 모델)와 판별기를 공동으로 사전학습한다.
크로스링구얼 신호에 적응하기 위한 self-attention의 게이트된 상대 위치 편향을 도입한다.
대규모 학습의 안정화를 위해 Transformer 파라미터를 신중하게 초기화한다.

실험 결과

연구 질문

RQ1다국어 및 병렬 데이터에 대한 판별적 ELECTRA-style 사전학습이 경쟁력 있는 크로스링구얼 표현을 낼 수 있는가?
RQ2 MRTD/TRTD가 MLM 기반 사전학습에 비해 크로스링구얼 전달 가능성과 효율성을 향상시키는가?
RQ3 XLM-E가 모델 규모를 확장함에 따라 어떻게 스케일링되며 기준선 대비 연산 비용은 어느 정도인가?
RQ4 게이트된 상대 위치 편향이 크로스링구얼 정렬 및 전달 작업에 어떤 영향을 미치는가?
RQ5 XLM-E 표현이 alignment 및 retrieval 작업에서 언어별로 보편적으로 정렬되는가?

주요 결과

XLM-E는 XTREME에서 XLM-R 및 XLM-Align보다 훨씬 낮은 계산으로 강력한 크로스링구얼 성능을 달성한다.
판별적 사전학습(MRTD/TRTD)과 게이트된 상대 위치 편향이 크로스링구얼 전달 및 표현 정렬을 향상시키는 데 기여한다.
XLM-E를 확장(Large/XL)하면 추가적인 이점을 얻으면서도 더 큰 기준선에 비해 매개변수 효율성을 유지한다.
XLM-E는 여러 과제에서 더 나은 크로스링구얼 정렬 및 전달 격차를 감소시켜 보편적 표현의 향상을 시사한다.
제거된 TRTD 및 게이트 위치 편향은 이점이 있으며 제거 시 성능이 저하된다.
XLM-E는 XTREME 결과를 유지하거나 개선하면서 FLOPs가 더 낮아지는 notable 효율성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.