Skip to main content
QUICK REVIEW

[논문 리뷰] Data Efficient Direct Speech-to-Text Translation with Modality Agnostic Meta-Learning

Sathish Reddy Indurthi, HouJeung Han|arXiv (Cornell University)|2019. 11. 11.
Natural Language Processing Techniques참고 문헌 26인용 수 28
한 줄 요약

이 논문은 사전 학습된 ASR 및 MT 작업을 소스 작업으로 활용하여 강건한 모델 초기화를 학습함으로써 엔드 투 엔드 음성-텍스트 번역(ST)에서 데이터 효율성을 향상시키기 위한 모odal리티 무관 메타학습 접근법을 제안한다. 음성과 텍스트 모odal리티 간에 모델 무관 메타학습(MAML)을 적용함으로써, 이 방법은 MuST-C En-De 및 En-Fr ST 작업에서 최신 기술 수준의 성능을 달성하였으며, 이전의 전이 학습 방법 대비 각각 BLEU 점수를 9.18점과 11.76점 향상시켰다.

ABSTRACT

End-to-end Speech Translation (ST) models have several advantages such as lower latency, smaller model size, and less error compounding over conventional pipelines that combine Automatic Speech Recognition (ASR) and text Machine Translation (MT) models. However, collecting large amounts of parallel data for ST task is more difficult compared to the ASR and MT tasks. Previous studies have proposed the use of transfer learning approaches to overcome the above difficulty. These approaches benefit from weakly supervised training data, such as ASR speech-to-transcript or MT text-to-text translation pairs. However, the parameters in these models are updated independently of each task, which may lead to sub-optimal solutions. In this work, we adopt a meta-learning algorithm to train a modality agnostic multi-task model that transfers knowledge from source tasks=ASR+MT to target task=ST where ST task severely lacks data. In the meta-learning phase, the parameters of the model are exposed to vast amounts of speech transcripts (e.g., English ASR) and text translations (e.g., English-German MT). During this phase, parameters are updated in such a way to understand speech, text representations, the relation between them, as well as act as a good initialization point for the target ST task. We evaluate the proposed meta-learning approach for ST tasks on English-German (En-De) and English-French (En-Fr) language pairs from the Multilingual Speech Translation Corpus (MuST-C). Our method outperforms the previous transfer learning approaches and sets new state-of-the-art results for En-De and En-Fr ST tasks by obtaining 9.18, and 11.76 BLEU point improvements, respectively.

연구 동기 및 목표

  • 엔드 투 엔드 음성 번역(ST) 시스템에서 제한된 병렬 음성-텍스트 데이터 문제를 해결하기 위해.
  • 모델 파라미터가 각 작업별로 독립적으로 업데이트되며 목표 ST 작업에 대한 적응을 고려하지 않는 전이 학습에서의 열악한 성능을 극복하기 위해.
  • 소스 작업과 대상 작업 간의 파라미터 공유 없이 ASR 및 MT 작업의 다양한 데이터를 활용하는 통합 프레임워크를 개발하기 위해.
  • 다양한 모달리티를 통해 메타학습을 통해 강력한 초기화를 학습하여 저자원 ST에 대한 일반화 능력과 피니팅 효율을 향상시키기 위해.

제안 방법

  • 소스 작업인 자동 음성 인식(ASR) 및 기계 번역(MT)에서 다중 작업 모델을 훈련하기 위해 모델 무관 메타학습(MAML)을 도입한다.
  • 메타학습 기간 동안 음성 전사본(ASR)과 텍스트 번역 쌍(MT)을 입력 모달리티로 사용하여 공유되는, 모달리티에 무관한 초기화를 학습한다.
  • 피니팅 중 소수의 경사 하강 스텝을 통해 빠른 적응을 통해 대상 ST 작업에 신속히 적응하도록 모델을 훈련한다.
  • ASR, MT, 그리고 ST 작업 간의 파라미터 공유 없이도 메타학습된 초기화를 ST 모델에 적용한다.
  • 성능 향상을 위해 워드피ece 토크나이저 및 합성 데이터 증강 기법을 사용한다.
  • 시퀀스에서 시퀀스 아키텍처를 사용하며, 자기주의와 피드포워드 네트워크를 최적화하여 로그우도 목표 함수로 훈련한다.

실험 결과

연구 질문

  • RQ1ASR(음성 입력) 및 MT(텍스트 입력)와 같은 다중 모달리티 작업에 메타학습을 효과적으로 적용하여 목표 ST 작업을 위한 초기화를 향상시킬 수 있는가?
  • RQ2저자원 음성-텍스트 번역에서 표준 전이 학습 대비 모달리티에 무관한 메타학습 접근법이 더 우수한 성능을 내는가?
  • RQ3MuST-C와 같은 표준 ST 벤치마크에서 메타학습된 모델의 성능은 기존의 전이 학습 기반 모델과 비교해 어떻게 되는가?
  • RQ4합성 데이터와 워드피ece 토크나이저는 메타학습된 ST 시스템의 성능을 얼마나 더 향상시킬 수 있는가?
  • RQ5특정 작업에 맞게 파라미터를 공유하지 않더라도 제안된 방법이 다양한 언어 쌍 간에 일반화 가능한가?

주요 결과

  • 제안된 방법은 MuST-C 영어-독어(En-De) 음성 번역 작업에서 BLEU 점수 22.11로 최신 기술 수준의 성능을 달성하였다.
  • 영어-프랑스어(En-Fr) 작업에서는 BLEU 점수 34.05를 기록하여 새로운 최고 기록을 수립하였다.
  • 이전의 전이 학습 접근법 대비 En-De 및 En-Fr 작업에서 각각 BLEU 점수를 9.18점과 11.76점 향상시켰다.
  • 합성 데이터와 워드피ece 토크나이저의 사용은 성능 향상에 기여하였으며, 이는 프레임워크가 데이터 증강과 호환됨을 보여주었다.
  • 제거 실험을 통해 메타학습 전략이 표준 피니팅보다 더 빠르고 효과적으로 ST 작업에 적응함을 확인하였다.
  • 소스 작업과 대상 작업 간의 파라미터 공유 없이도 모델이 뛰어난 성능을 내었으며, 이는 모달리티에 무관한 초기화의 효과성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.