QUICK REVIEW

[논문 리뷰] Cross-lingual Retrieval for Iterative Self-Supervised Training

Chau Tran, Yuqing Tang|arXiv (Cornell University)|2020. 06. 16.

Topic Modeling참고 문헌 55인용 수 48

한 줄 요약

CRISS는 CRISS iteratively mines pseudo-parallel data using encoder outputs from multilingual models to improve cross-lingual alignment and translation without labeled parallel data, achieving SOTA in unsupervised MT and cross-lingual retrieval.

ABSTRACT

Recent studies have demonstrated the cross-lingual alignment ability of multilingual pretrained language models. In this work, we found that the cross-lingual alignment can be further improved by training seq2seq models on sentence pairs mined using their own encoder outputs. We utilized these findings to develop a new approach -- cross-lingual retrieval for iterative self-supervised training (CRISS), where mining and training processes are applied iteratively, improving cross-lingual alignment and translation ability at the same time. Using this method, we achieved state-of-the-art unsupervised machine translation results on 9 language directions with an average improvement of 2.4 BLEU, and on the Tatoeba sentence retrieval task in the XTREME benchmark on 16 languages with an average improvement of 21.5% in absolute accuracy. Furthermore, CRISS also brings an additional 1.8 BLEU improvement on average compared to mBART, when finetuned on supervised machine translation downstream tasks.

연구 동기 및 목표

다국어 디노이징 오토인코더의 인코더 출력이 언어에 구애받지 않는 표현을 형성하여 교차-언어 작업을 향상시킨다는 것을 증명한다.
단일 병렬 언어 쌍에서의 파인튜닝이 많은 언어 방향에 걸친 정렬을 향상시킬 수 있음을 보여준다.
가상 병렬 데이터를 공동으로 발견하고 다국어 모델을 개선하는 반복적 마이닝-학습 루프를 개발한다.
CRISS를 비지도 및 지도 MT는 물론 문장 검색에 대해 평가하여 성능 향상을 입증한다.
사전훈련, 다국어 대 다국어 훈련 비교, 피벗 언어 선택에 대한 통찰과 ablation 연구를 제공한다.]
method:[
Use mBART as the initial multilingual Seq2Seq pretraining model to obtain language-agnostic sentence representations.
Mine pseudo-parallel data by computing a margin-based score over KNN neighborhoods of sentence embeddings and selecting high-scoring pairs (Algorithm 1).
Iteratively train a multilingual transformer on the mined data and repeat mining with the improved model (Algorithm 2).
Augment mined pairs with a target-language token to enable multilingual MT finetuning.
Limit mining directions to a subset (e.g., 90 language pairs) to achieve strong results with manageable computation.
Evaluate using unsupervised MT benchmarks, Tatoeba XTREME-style sentence retrieval, and supervised MT finetuning.

제안 방법

언어에 구애받지 않는 문장 표현을 얻기 위해 초기 다국어 Seq2Seq 사전학습 모델로 mBART를 사용한다.
문장 임베딩의 KNN 이웃에 대한 여백 기반 점수를 계산하고 높은 점수의 쌍을 선택하여 pseudo-parallel 데이터를 마이닝한다 (Algorithm 1).
마이닝된 데이터에 대해 반복적으로 다국어 트랜스포머를 학습하고 개선된 모델로 다시 마이닝을 반복한다 (Algorithm 2).
다국어 MT 파인튜닝이 가능하도록 탐색된 쌍에 대상 언어 토큰을 보강한다.
계산 비용을 관리 가능한 수준으로 유지하면서 강력한 결과를 얻기 위해 마이닝 방향을 하위 집합에 제한한다(예: 90개 언어 쌍).
비지도 MT 벤치마크, Tatoeba XTREME-스타일 문장 검색, 그리고 지도 MT 파인튜닝으로 평가한다.

실험 결과

연구 질문

RQ1다국어 디노이징 자동인코더가 학습한 교차-언어 문장 표현이 자기-마이닝된 병렬 데이터를 통해 개선될 수 있는가?
RQ2단일 언어 쌍의 병렬 데이터를 이용한 파인튜닝이 모든 방향의 교차-언어 정렬을 향상시키는가?
RQ3반복적 마이닝-훈련 주기가 비지도 MT 및 교차-언어 검색 성능에 어떤 영향을 미치는가?
RQ4마이닝된 pseudo-parallel 데이터를 사용할 때 다국어 파인튜닝 전략과 이중언어 파인튜닝 전략은 어떻게 비교되는가?
RQ5피벗 언어 수가 검색 및 번역 품질에 미치는 영향은 무엇인가?

주요 결과

CRISS는 9개 언어 방향에서 비지도 MT의 최첨단 결과를 달성하며 평균 BLEU 2.4 포인트의 향상을 달성했다.
16개 언어의 XTREME Tatoeba 검색에서 CRISS는 평균 절대 정확도 21.5% 향상을 보인다.
CRISS는 감독 MT 하류 작업에서 파인튜닝될 때 mBART에 비해 평균 1.8 BLEU 향상을 제공한다.
단일 언어 쌍에 대한 파인튜닝은 모든 방향의 교차-언어 정렬을 개선할 수 있으며, 반복적 마이닝은 성능을 더욱 향상시킨다.
다운스트림 MT 작업에서 마이닝된 pseudo-parallel 데이터에 대해 다국어 훈련이 일반적으로 이중언어 훈련보다 우수하다.
적은 수의 피벗 언어를 사용하는 것이(최적은 대략 2로 발견되었고 4까지 테스트) 계산 비용 증가에도 거의 최적의 이득을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.