QUICK REVIEW

[논문 리뷰] Beyond English-Centric Multilingual Machine Translation

Angela Fan, Shruti Bhosale|arXiv (Cornell University)|2020. 10. 21.

Natural Language Processing Techniques참고 문헌 81인용 수 468

한 줄 요약

이 논문은 영어를 거치지 않고 100개 언어에 대해 진정한 Many-to-Many 번역 모델(M2M-100)을 구축하여 대규모 데이터 마이닝, backtranslation, 밀집 및 희소 매개변수의 혼합을 활용해 비영어 번역 성능을 강하게 달성한다.

ABSTRACT

Existing work in translation demonstrated the potential of massively multilingual machine translation by training a single model able to translate between any pair of languages. However, much of this work is English-Centric by training only on data which was translated from or to English. While this is supported by large sources of training data, it does not reflect translation needs worldwide. In this work, we create a true Many-to-Many multilingual translation model that can translate directly between any pair of 100 languages. We build and open source a training dataset that covers thousands of language directions with supervised data, created through large-scale mining. Then, we explore how to effectively increase model capacity through a combination of dense scaling and language-specific sparse parameters to create high quality models. Our focus on non-English-Centric models brings gains of more than 10 BLEU when directly translating between non-English directions while performing competitively to the best single systems of WMT. We open-source our scripts so that others may reproduce the data, evaluation, and final M2M-100 model.

연구 동기 및 목표

영어 중심의 다국어 MT 편향을 비영어 간 직접 번역이 가능하게 해결한다.
다국어 데이터 마이닝과 역번역을 사용해 100개 언어 병렬 데이터셋(7.5B 문장, 2200 방향)을 대규모로 생성한다.
데이터 증가가 제곱 증가하는 문제를 다루기 위해 dense 용량과 언어별 희소 매개변수의 확장을 연구한다.
모든 언어 쌍을 exhaustively 커버하지 않고도 유용한 이중-텍스트를 효율적으로 채굴하는 다리-언어 데이터 마이닝 전략을 제안한다.
결과 모델인 M2M-100을 이중언어 기준선과 WMT 스타일 벤치마크와 비교 평가해 경쟁력 있는 성능을 보인다.]
method:[

제안 방법

Transformer 기반 seq2seq 아키텍처를 사용하되 12개의 인코더 및 12개의 디코더 계층과 기본 모델로 1.2B 매개변수를 채택하고, 안정화를 위해 라벨 스무딩과 LayerDrop으로 학습한다.
SentencePiece 서브워드 분할을 채택하고, 언어 간 균형을 맞춘 128k 토큰의 다국어 사전을 온도 샘플링으로 사용한다.
Bridge-language 마이닝을 통해 14개 그룹으로 언어를 묶고 26개의 다리 언어를 사용하며 영어와의 마이닝을 추가해 100개 언어의 Many-to-Many 병렬 데이터셋을 구성한다.
LASER 기반 임베딩과 FAISS 인덱싱을 활용해 CCMatrix/CCAligned에서 병렬 데이터를 채굴하고 사후 필터링 및 언어별 확인을 수행한다.
채굴된 데이터에 100 방향의 backtranslation을 추가해 BLEU 2–10을 달성하고 대상 언어당 5천만 개의 단일 언어 문장을 샘플링해 BT 데이터를 태깅한다.
혼합(Dense-Sparse) 매개변수 전략(mixture-of-experts)과 언어별 라우팅을 도입해 수백 대의 GPU에서 학습 가능하도록 15.4B 매개변수로 확장한다.

실험 결과

연구 질문

RQ1true Many-to-Many MT 시스템이 영어 피봇 없이 100개 언어 중 아무 쌍이나 직접 번역하고 경쟁력 있는 성능을 달성할 수 있는가?
RQ2Bridge-language 기반 마이닝이 데이터 효율성과 방향 간 번역 품질 측면에서 영어 중심 마이닝과 어떻게 비교되는가?
RQ3Dense 확장과 언어별 희소 매개변수가 100개 언어 설정의 모델 용량과 번역 품질에 미치는 영향은 무엇인가?
RQ4Many-to-Many 설정에서 역번역이 다양한 언어 방향에 걸쳐 일관되게 번역 품질을 향상시키는가?

주요 결과

모델	평균	낮음	중간	높음
Random 80%	11.9	3.6	16.1	31.5
Random 80% w/ En	16.3	8.9	22.4	36.6
Bridge Language, 80%	17.2	10.4	23.2	37.4

비영어 방향 간의 직접 번역은 비영어 방향을 직접 비교할 때 BLEU가 10 이상 향상되어 영어 중심 기준선과 대조적으로 나타난다.
14개 언어 그룹과 26개 다리 언어를 가진 다리-언어 마이닝은 영어 중심 마이닝보다 더 많은 병렬 데이터를 생성(5–10배)하여 중간 및 자원이 적은 언어의 커버리지를 향상시킨다.
역번역은 방향 전반에 걸쳐 BLEU를 일관되게 향상시키며, 특히 성능이 낮은 쌍에서 더 큰 이점을 준다.
확장된 M2M-100(밀집 및 희소 혼합)으로 최대 15.4B 매개변수에 도달하고 효율적인 학습을 유지하며, 직접 100x100 번역 방향을 가능하게 한다.
표준 벤치마크에서 Many-to-Many 모델은 WMT와 같은 최고 단일 이중언어 시스템과 경쟁력이 있으며, 훨씬 더 큰 방향 수에도 불구하고.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.