[논문 리뷰] Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks
Unicoder는 다섯 가지 교차 언어 작업과 다중 언어 미세조정을 사용한 보편적 언어 인코더를 사전 학습하여 Multilingual BERT 및 XLM 기준선과 비교하여 XNLI 및 XQA에서 최첨단 결과를 달성합니다.
We present Unicoder, a universal language encoder that is insensitive to different languages. Given an arbitrary NLP task, a model can be trained with Unicoder using training data in one language and directly applied to inputs of the same task in other languages. Comparing to similar efforts such as Multilingual BERT and XLM, three new cross-lingual pre-training tasks are proposed, including cross-lingual word recovery, cross-lingual paraphrase classification and cross-lingual masked language model. These tasks help Unicoder learn the mappings among different languages from more perspectives. We also find that doing fine-tuning on multiple languages together can bring further improvement. Experiments are performed on two tasks: cross-lingual natural language inference (XNLI) and cross-lingual question answering (XQA), where XLM is our baseline. On XNLI, 1.8% averaged accuracy improvement (on 15 languages) is obtained. On XQA, which is a new cross-lingual dataset built by us, 5.5% averaged accuracy improvement (on French and German) is obtained.
연구 동기 및 목표
- 다소 제한된 라벨링 데이터가 있는 언어 간의 교차 언어 전이 학습 필요성에 대한 동기를 제시한다.
- 여러 교차 언어 사전 학습 작업으로 학습된 범용 인코더를 제안하여 언어 비의존적 표현을 학습한다.
- 다중 언어 미세조정이 교차 언어 전이를 더욱 향상시키는지 보여준다.
- 강력한 다국어 기준선과 비교하여 XNLI 및 XQA에서 실험적으로 평가하고 새로운 최첨단 결과를 확립한다.
제안 방법
- 15개 언어에 걸쳐 공유되는 12-layer transformer with 1024 hidden units and 95k vocabulary를 사용하는 Unicoder를 소개한다.
- 다섯 가지 작업으로 사전 학습한다: masked language modeling (MLM), translation language modeling (TLM), cross-lingual word recovery, cross-lingual paraphrase classification, 및 cross-lingual masked language modeling (document-level).
- cross-lingual word recovery에서 원래 단어를 복원하기 위한 bilingual sentence pair attention mechanism을 사용한다.
- 두 언어의 문장을 연결하고 첫 토큰 표현을 이진 분류에 사용하여 cross-lingual paraphrase classifier를 학습한다.
- 언어 간 문장을 정렬하여 cross-lingual documents를 구성하고 256-token 시퀀스에 대해 MLM을 적용한다.
- 다중 언어 미세조정 전략으로 파인튜닝하여 여러 언어의 데이터(실제 또는 가짜 번역)를 함께 학습해 전이 성능을 향상시킨다.
실험 결과
연구 질문
- RQ1다양한 교차 언어 작업으로 학습된 단일 범용 인코더가 언어별 특수한 적응이 거의 없거나 전혀 없이도 여러 언어에서 좋은 성능을 낼 수 있는가?
- RQ2MLM 및 TLM을 넘는 추가 교차 언어 사전 학습 작업이 교차 언어 전이 성능을 향상시키는가?
- RQ3다중 언어 미세조정이 교차 언어 성능을 더 향상시키는가, 그리고 언어 수가 이익에 어떤 영향을 미치는가?
- RQ4Unicoder가 XNLI 및 XQA에서 강력한 기준선(Multilingual BERT, XLM)과 어떻게 비교되는가?
- RQ5영어를 포함한 다른 언어의 공동 미세조정이 교차 언어 작업에 어떤 영향을 주는가?
주요 결과
| 미세조정 방식 | XNLI 평균 정확도 (%) |
|---|---|
| TRANSLATE-TRAIN (Conneau et al. 2018 baseline) | 65.4 |
| Multilingual BERT (Devlin et al. 2018) | 61.6 |
| XLM (Lample & Conneau 2019) | 76.7 |
| Unicoder (ours) | 76.9 |
| TRANSLATE-TEST (translate test data to English) | 67.2 |
| XLM (as baseline under TRANSLATE-TEST) | 74.2 |
| Unicoder (TRANSLATE-TEST) | 74.9 |
| Cross-lingual TEST (train English, test on target) | 65.6 |
| Unicoder (Cross-lingual TEST) | 75.4 |
| Multi-language Fine-tune (train English + multiple languages) | 77.8 |
| Unicoder (Multi-language Fine-tune) | 78.5 |
- Unicoder는 XNLI에서 다중 언어 미세조정으로 특히 최첨단 성능을 달성하며, 최적 설정에서 평균 정확도 78.5%에 도달한다.
- XNLI에서 Unicoder는 미세조정 설정 전반에 걸쳐 XLM보다 우수하며, 다중 언어 미세조정과 결합했을 때 최대 1.6%의 이득을 얻는다.
- 새로운 XQA 데이터셋에서 Unicoder는 영어를 포함한 다른 언어로의 미세조정 및 번역-훈련을 적용했을 때 평균 정확도 69.7%를 달성하고 XLM 기준선보다 최대 5.5포인트 앞섰다.
- 세 가지 새로운 교차 언어 과제 중 어느 하나를 제거해도 성능이 감소하는 것이 확인되며, 단어 회복이 이득에 크게 기여하고 파라프레이즈 분류는 상대적으로 감소폭이 작은 편이다.
- 다중 언어 미세조정은 일관되게 성능을 향상시키며, 더 많은 언어가 미세조정에 사용될수록 일반적으로 더 나은 결과를 낳지만, 일부 언어 쌍은 예외가 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.