QUICK REVIEW

[논문 리뷰] Multilingual Neural Machine Translation with Knowledge Distillation

Xu Tan, Yi Ren|arXiv (Cornell University)|2019. 02. 27.

Natural Language Processing Techniques인용 수 129

한 줄 요약

이 논문은 지식 증류를 활용해 개별적으로 학습된 언어쌍 모델에서 다언어 NMT 프레임워크를 훈련시키고, 훨씬 더 적은 파라미터에도 개별 모델과 비슷하거나 더 나은 정확도를 달성하는 다언어 모델을 제시합니다.

ABSTRACT

Multilingual machine translation, which translates multiple languages with a single model, has attracted much attention due to its efficiency of offline training and online serving. However, traditional multilingual translation usually yields inferior accuracy compared with the counterpart using individual models for each language pair, due to language diversity and model capacity limitations. In this paper, we propose a distillation-based approach to boost the accuracy of multilingual machine translation. Specifically, individual models are first trained and regarded as teachers, and then the multilingual model is trained to fit the training data and match the outputs of individual models simultaneously through knowledge distillation. Experiments on IWSLT, WMT and Ted talk translation datasets demonstrate the effectiveness of our method. Particularly, we show that one model is enough to handle multiple languages (up to 44 languages in our experiment), with comparable or even better accuracy than individual models.

연구 동기 및 목표

많은 언어 쌍에 걸쳐 높은 정확도를 유지하면서 학습 및 서빙 비용을 줄이기 위해 다언어 NMT를 촉진한다.
언어쌍 교사 모델로부터의 지식 증류를 활용하여 단일 다언어 학생 모델을 학습한다.
다양한 데이터셋(IWSLT, WMT, Ted talk)에서 다언어 모델이 개별 모델과 견줄 만한 ή 더 나은 정확도를 달성할 수 있음을 입증한다.
학습 효율성 및 메모리 사용을 관리하기 위해 선택적 증류와 Top-K 증류를 탐구한다.

제안 방법

각 언어쌍에 대해 개별 언어쌍 모델을 교사로 훈련한다.
모든 교사에 대해 실제 정답 NLL과 증류 손실을 모두 최소화하도록 단일 다언어 학생 모델을 훈련한다.
학생이 임계값을 넘어서 교사보다 우수해지면 특정 언어쌍의 증류를 비활성화하기 위해 선택적 증류를 사용한다.
토큰당 상위 K 개 교사 확률만 증류하여 메모리를 줄이기 위해 선택적으로 Top-K 증류를 사용한다.
훈련 중에 학생과 교사의 정확도를 점진적으로 비교하고 그에 따라 증류 사용을 조정한다.

실험 결과

연구 질문

RQ1다언어 NMT 모델이 해당 모델들로부터의 지식 증류를 이용해 언어쌍 전문 모델의 정확도에 도달할 수 있는가?
RQ2선택적 증류가 약한 교사들로 인한 부정적 영향을 감소시키면서 성능을 유지하거나 향상시키는 데 도움이 되는가?
RQ3대규모 다언어 설정에서 Top-K 증류를 사용할 때의 메모리 및 성능 트레이드오프는 무엇인가?

주요 결과

다언어 기준선은 일반적으로 개별 모델보다 못하지만 제안된 증류 방법은 많은 언어쌍에서 차이를 좁히거나 이를 능가한다.
다중 증류는 Ted Talk 설정에서 총 매개변수의 1/44만으로도 대부분 언어에서 개별 모델과 유사하거나 더 나은 BLEU를 달성한다.
선택적 증류는 모든 교사로부터 지속적으로 증류하는 것과 비교하여 대다수 언어에서 BLEU를 향상시킨다.
Top-K 증류는 메모리 사용을 줄이면서 전체 분포 증류와 비슷하거나 더 나은 성능을 달성한다.
백 증류는 다언어 증류 후 일부 개별 언어 모델을 개선할 수 있지만 언어에 따라 결과가 다르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.