[논문 리뷰] Cross-lingual Retrieval for Iterative Self-Supervised Training
CRISS는 CRISS iteratively mines pseudo-parallel data using encoder outputs from multilingual models to improve cross-lingual alignment and translation without labeled parallel data, achieving SOTA in unsupervised MT and cross-lingual retrieval.
Recent studies have demonstrated the cross-lingual alignment ability of multilingual pretrained language models. In this work, we found that the cross-lingual alignment can be further improved by training seq2seq models on sentence pairs mined using their own encoder outputs. We utilized these findings to develop a new approach -- cross-lingual retrieval for iterative self-supervised training (CRISS), where mining and training processes are applied iteratively, improving cross-lingual alignment and translation ability at the same time. Using this method, we achieved state-of-the-art unsupervised machine translation results on 9 language directions with an average improvement of 2.4 BLEU, and on the Tatoeba sentence retrieval task in the XTREME benchmark on 16 languages with an average improvement of 21.5% in absolute accuracy. Furthermore, CRISS also brings an additional 1.8 BLEU improvement on average compared to mBART, when finetuned on supervised machine translation downstream tasks.
연구 동기 및 목표
- 다국어 디노이징 오토인코더의 인코더 출력이 언어에 구애받지 않는 표현을 형성하여 교차-언어 작업을 향상시킨다는 것을 증명한다.
- 단일 병렬 언어 쌍에서의 파인튜닝이 많은 언어 방향에 걸친 정렬을 향상시킬 수 있음을 보여준다.
- 가상 병렬 데이터를 공동으로 발견하고 다국어 모델을 개선하는 반복적 마이닝-학습 루프를 개발한다.
- CRISS를 비지도 및 지도 MT는 물론 문장 검색에 대해 평가하여 성능 향상을 입증한다.
- 사전훈련, 다국어 대 다국어 훈련 비교, 피벗 언어 선택에 대한 통찰과 ablation 연구를 제공한다.]
- method:[
- Use mBART as the initial multilingual Seq2Seq pretraining model to obtain language-agnostic sentence representations.
- Mine pseudo-parallel data by computing a margin-based score over KNN neighborhoods of sentence embeddings and selecting high-scoring pairs (Algorithm 1).
- Iteratively train a multilingual transformer on the mined data and repeat mining with the improved model (Algorithm 2).
- Augment mined pairs with a target-language token to enable multilingual MT finetuning.
- Limit mining directions to a subset (e.g., 90 language pairs) to achieve strong results with manageable computation.
- Evaluate using unsupervised MT benchmarks, Tatoeba XTREME-style sentence retrieval, and supervised MT finetuning.
제안 방법
- 언어에 구애받지 않는 문장 표현을 얻기 위해 초기 다국어 Seq2Seq 사전학습 모델로 mBART를 사용한다.
- 문장 임베딩의 KNN 이웃에 대한 여백 기반 점수를 계산하고 높은 점수의 쌍을 선택하여 pseudo-parallel 데이터를 마이닝한다 (Algorithm 1).
- 마이닝된 데이터에 대해 반복적으로 다국어 트랜스포머를 학습하고 개선된 모델로 다시 마이닝을 반복한다 (Algorithm 2).
- 다국어 MT 파인튜닝이 가능하도록 탐색된 쌍에 대상 언어 토큰을 보강한다.
- 계산 비용을 관리 가능한 수준으로 유지하면서 강력한 결과를 얻기 위해 마이닝 방향을 하위 집합에 제한한다(예: 90개 언어 쌍).
- 비지도 MT 벤치마크, Tatoeba XTREME-스타일 문장 검색, 그리고 지도 MT 파인튜닝으로 평가한다.
실험 결과
연구 질문
- RQ1다국어 디노이징 자동인코더가 학습한 교차-언어 문장 표현이 자기-마이닝된 병렬 데이터를 통해 개선될 수 있는가?
- RQ2단일 언어 쌍의 병렬 데이터를 이용한 파인튜닝이 모든 방향의 교차-언어 정렬을 향상시키는가?
- RQ3반복적 마이닝-훈련 주기가 비지도 MT 및 교차-언어 검색 성능에 어떤 영향을 미치는가?
- RQ4마이닝된 pseudo-parallel 데이터를 사용할 때 다국어 파인튜닝 전략과 이중언어 파인튜닝 전략은 어떻게 비교되는가?
- RQ5피벗 언어 수가 검색 및 번역 품질에 미치는 영향은 무엇인가?
주요 결과
- CRISS는 9개 언어 방향에서 비지도 MT의 최첨단 결과를 달성하며 평균 BLEU 2.4 포인트의 향상을 달성했다.
- 16개 언어의 XTREME Tatoeba 검색에서 CRISS는 평균 절대 정확도 21.5% 향상을 보인다.
- CRISS는 감독 MT 하류 작업에서 파인튜닝될 때 mBART에 비해 평균 1.8 BLEU 향상을 제공한다.
- 단일 언어 쌍에 대한 파인튜닝은 모든 방향의 교차-언어 정렬을 개선할 수 있으며, 반복적 마이닝은 성능을 더욱 향상시킨다.
- 다운스트림 MT 작업에서 마이닝된 pseudo-parallel 데이터에 대해 다국어 훈련이 일반적으로 이중언어 훈련보다 우수하다.
- 적은 수의 피벗 언어를 사용하는 것이(최적은 대략 2로 발견되었고 4까지 테스트) 계산 비용 증가에도 거의 최적의 이득을 준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.