QUICK REVIEW

[논문 리뷰] Multilingual Speech Translation with Efficient Finetuning of Pretrained Models

Xian Li, Changhan Wang|arXiv (Cornell University)|2020. 10. 24.

Natural Language Processing Techniques참고 문헌 46인용 수 27

한 줄 요약

이 논문은 사전 훈련된 wav2vec 2.0 및 mBART 모델의 LayerNorm 및 Attention (LNA) 파라미터만 미세조정하여 다국어 음성-텍스트 번역을 위한 파라미터 및 데이터 효율적인 방법을 제안한다. 이 방법은 CoVoST 2 및 Europarl 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성하며, En-X 방향에서 평균 +6.4 BLEU, X-En 방향에서 +5.1 BLEU의 향상을 보였고, 전체 파라미터의 10–50%만 훈련하여 강력한 제로샷 다국어 및 다중 모odal 전이를 가능하게 한다.

ABSTRACT

We present a simple yet effective approach to build multilingual speech-to-text (ST) translation by efficient transfer learning from pretrained speech encoder and text decoder. Our key finding is that a minimalistic LNA (LayerNorm and Attention) finetuning can achieve zero-shot crosslingual and cross-modality transfer ability by only finetuning less than 10% of the pretrained parameters. This enables effectively leveraging large pretrained models with low training cost. Using wav2vec 2.0 for acoustic modeling, and mBART for multilingual text generation, our approach advanced the new state-of-the-art for 34 translation directions (and surpassing cascaded ST for 23 of them) on large-scale multilingual ST benchmark CoVoST 2 (+6.4 BLEU on average across 15 En-X directions and +5.1 BLEU on average across 19 X-En directions). Our approach demonstrates strong zero-shot performance in a many-to-many multilingual model (+5.7 BLEU on average across 18 non-English directions), making it an appealing approach for attaining high-quality speech translation with improved parameter and data efficiency.

연구 동기 및 목표

대규모 사전 훈련된 모델의 최소한의 미세조정을 통해 고품질의 다국어 음성-텍스트 번역을 가능하게 하기 위해.
저자원 번역 방향에서의 데이터 부족 문제를 제로샷 다국어 및 다중 모달 전이를 활용하여 해결하기 위해.
구조적 수정 없이 엔드 투 엔드 음성 번역에서 파라미터 및 데이터 효율성을 향상시키기 위해.
모든 방향에 대해 병렬 데이터가 없더라도 많은 방향 간 다국어 번역에서 강력한 제로샷 성능을 보여주기 위해.
사전 훈련된 음성 및 다국어 텍스트 모델을 결합한 단순하고 효과적인 전이 학습 프레임워크를 구축하기 위해.

제안 방법

사전 훈련된 wav2vec 2.0 인코더를 음성 표현에, 다국어 mBART 디코더를 텍스트 생성에 사용한다.
경량 길이 어댑터가 1D 스트라이드 컨벌루션을 통해 음성과 텍스트 표현 간 시퀀스 길이 불일치를 보정한다.
LayerNorm 및 Attention (LNA) 파라미터만 미세조정하며, 총 파라미터의 10% 미만으로 효율성을 극대화한다.
음성-텍스트 번역 및 텍스트-텍스트 번역 작업을 동시에 미세조정하여 성능을 향상시킨다.
제로샷 다국어 전이(예: A→B에서 훈련, A→C에서 테스트) 및 제로샷 다국어 번역 전이(예: A→B 및 B→C에서 훈련, A→C에서 테스트)를 지원한다.
전체 모델을 엔드 투 엔드로 훈련하며, 순서-순서 생성을 위한 교차 엔트로피 손실을 사용하고, 사전 훈련된 모델의 LNA 구성 요소만 사용한다.

실험 결과

연구 질문

RQ1사전 훈련된 모델의 작은 파라미터 부분(예: LayerNorm 및 Attention)만 미세조정하여 다국어 음성 번역에서 뛰어난 성능을 달성할 수 있는가?
RQ2이 방법이 목표 언어 쌍에 대한 병렬 데이터 없이 제로샷 다국어 전이를 어느 정도 가능하게 하는가?
RQ3음성-텍스트 번역 및 텍스트-텍스트 번역 작업을 동시에 미세조정하는 것이 전체 성능에 어떤 영향을 미치는가?
RQ4이 방법이 고도의 파라미터 및 데이터 효율성을 유지하면서 최신 기술 수준(SOTA) 성능을 달성할 수 있는가?
RQ5이 방법이 모든 방향에 대해 병렬 데이터가 없더라도 많은 방향 간 다국어 번역에 효과적으로 일반화되는가?

주요 결과

제안된 LNA 미세조정 전략은 CoVoST 2에서 15개의 영어-다국어 번역 방향에서 평균 +6.4 BLEU 향상, 19개의 다국어-영어 방향에서 +5.1 BLEU 향상을 기록하며 이전 엔드 투 엔드 모델을 초월했다.
이 방법은 CoVoST 2의 34개 번역 방향 전반에서 새로운 최신 기술 수준(SOTA)을 달성했으며, 평균적으로 최대 +6.4 BLEU의 향상을 기록했다.
Europarl 벤치마크에서 제로샷 다국어 다대다 모델은 18개의 비영어 방향에서 평균 +5.7 BLEU 향상을 기록했고, 1.6배 더 많은 데이터로 훈련된 모델보다 뛰어난 성능을 보였다.
총 파라미터의 10–50%만(특히 LNA 구성 요소) 미세조정하여 전체 미세조정과 유사한 성능를 달성하여 높은 파라미터 효율성을 입증했다.
모델는 추가적인 미세조정 없이도 새로운 언어 쌍에 대해 강력한 제로샷 다국어 전이 성능를 보였다.
제거 실험을 통해 LayerNorm 및 Attention 파라미터(LNA)만 미세조정하는 것이 고성능을 달성하는 데 충분하며, 퍼플렉서티에 미미한 영향을 주고 BLEU 점수에서 높은 향상을 이룬다는 것이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.