[논문 리뷰] InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training
InfoXLM은 다국어 뷰 간의 상호정보 최대화를 교차-언어 사전학습으로 정의하고, XlCo라는 교차-언어 대비 태스크를 도입하여 단일언어 및 병렬 데이터를 활용해 전이 가능성을 향상시킵니다.
In this work, we present an information-theoretic framework that formulates cross-lingual language model pre-training as maximizing mutual information between multilingual-multi-granularity texts. The unified view helps us to better understand the existing methods for learning cross-lingual representations. More importantly, inspired by the framework, we propose a new pre-training task based on contrastive learning. Specifically, we regard a bilingual sentence pair as two views of the same meaning and encourage their encoded representations to be more similar than the negative examples. By leveraging both monolingual and parallel corpora, we jointly train the pretext tasks to improve the cross-lingual transferability of pre-trained models. Experimental results on several benchmarks show that our approach achieves considerably better performance. The code and pre-trained models are available at https://aka.ms/infoxlm.
연구 동기 및 목표
- 교차-언어 사전학습 태스크(MMLM, TLM)와 그들의 교차-언어 효과에 대한 통일된 정보이론적 관점을 제공한다.
- 번역 쌍 간의 시퀀스 수준 상호정보를 최대화하는 새로운 사전학습 태스크 XlCo를 도입한다.
- 단일언어 및 병렬 코퍼스를 공동으로 활용하여 더 나은 교차-언어 전이를 위한 InfoXLM을 개발한다.
- InfoXLM을 XNLI, MLQA, 그리고 문장 검색의 교차-언어 평가에서 검증한다.
제안 방법
- 다국어-다중 계층 텍스트 간의 상호정보를 최대화하는 방식으로 교차-언어 사전학습을 공식화한다.
- MMLM을 I(c1; x1) 최대화와 교차-언어 앵커 I(x1; x2) 최대화로 재해석하여 교차-언어 상관관계를 촉진한다.
- TLM을 I(c1, c2; x1) 최대화로 설명하고 이를 통해 교차-언어 맥락을 활용한다.
- XlCo를 InfoNCE를 이용한 모멘텀-콘트라스트 설정과 큰 음수 집단을 활용하여 I(c1; c2) 최대화로 제안한다.
- Mixup 대비와 보편적 계층에 대한 대비를 적용하여 교차-언어 전이 가능성과 표현 품질을 향상시킨다.
- 영어 피벗 정렬과 다국어 샘플링을 함께 최적화하여 MMLM, TLM, XlCo를 사전학습시키는 InfoXLM을 구성한다.
실험 결과
연구 질문
- RQ1정보이론적 프레임워크가 기존의 교차-언어 사전학습 태스크를 하나로 통합하고 이들의 교차-언어 전이 효과를 설명할 수 있는가?
- RQ2XlCo라는 교차-언어 대비 태스크를 도입하는 것이 MMLM/TLM만 사용할 때보다 교차-언어 정렬 및 다운스트림 전이를 개선하는가?
- RQ3보편적 계층에서 XlCo를 수행하는 것과 마지막 계층에서 수행하는 것의 영향은 무엇인가?
- RQ4Mixup 대비와 모멘텀 콘트라스트가 교차-언어 전이 및 표현 품질에 어떻게 기여하는가?
- RQ5InfoXLM이 다수의 언어에서 XNLI, MLQA, 그리고 교차-언어 문장 검색에서 더 나은 성능을 달성하는가?
주요 결과
- InfoXLM은 XNLI, MLQA, 및 교차-언어 검색 태스크에서 강력한 베이스라인보다 우수한 성능을 보인다.
- 교차-언어 대비(XlCo)는 보편적 계층에서 사용될 때 특히 제로샷 전이 및 교차-언어 정렬을 개선한다.
- XlCo를 TLM과 결합하면 어느 태스크 단독보다 더 강한 교차-언어 전이를 보이며 모멘텀 콘트라스트가 표현을 강화한다.
- InfoXLM은 MLQA 및 XNLI에서 영어와 다른 언어 간의 교차-언어 전이 간격을 축소한다.
- InfoXLM 기본 모델 및 대형 모델은 여러 벤치마크에서 XLM-R 및 관련 베이스라인과 경쟁적이거나 우수한 결과를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.